机器学习(VII)--强化学习(六)策略梯度方法
策略梯度方法
基本思路
策略梯度(Policy Gradients)方法特别适用于处理高维或连续的动作和状态空间,而这些在基于值的方法中通常很难处理。
From table to function ...
机器学习(VII)--强化学习(五)值函数近似
值函数近似
前面我们一直假定强化学习任务是在有限状态空间上进行,值函数则使用有限状态的表来表示。然而,现实强化学习任务,所面临的状态空间往往是连续的,有无穷多个状态,显然无法用表格来记录。我们不妨直 ...
机器学习(VII)--强化学习(四)时序差分方法
时序差分方法
基本思路
蒙特卡罗方法一般需要拿到完整的轨迹,才能对策略进行评估并更新模型,因此效率也比较低。时序差分学习(Temporal-Difference Learning)方法是蒙特卡罗方 ...
机器学习(VII)--强化学习(三)蒙特卡洛方法
蒙特卡洛方法
在现实的强化学习任务中,模型参数(状态转移函数与奖赏函数)往往很难得知,因此我们一般需要智能体和环境进行交互,并收集一些样本,然后再根据这些样本来求解马尔可夫决策过程最优策略,这便是无 ...
机器学习(VII)--强化学习(二)动态规划
动态规划
从贝尔曼方程可知,如果知道马尔可夫决策过程的状态转移概率和奖励函数,我们直接可以通过贝尔曼方程来迭代计算其值函数。这种模型已知的强化学习算法也称为基于模型的方法(Model-Based), ...
机器学习(VII)--强化学习(一)马尔可夫决策过程
强化学习 (Reinforcement Learning,RL) 可以描述为智能体 (Agent) 与环境 (Environment) 的交互中不断学习以完成特定目标(比如取得最大奖励值)的过程。
【 ...
机器学习(VI)--半监督学习
监督学习往往需要大量的标注数据,而标注数据的成本比较高.因此,利用大量的无标注数据来提高监督学习的效果有着十分重要的意义。这种利用少量标注数据和大量无标注数据进行学习的方式称为半监督学习(Semi-S ...
机器学习(VIII)--概率图模型(二)条件随机场
马尔可夫随机场
基本概念
有向图表达是变量之间的关系是单向关系,即一个影响另一个,比如因果关系。 但很多时候变量之间的关系是互相影响的,这时候有向图将不是那么方便了。 无向图模型 (Undirec ...
机器学习(VIII)--概率图模型(一)隐马尔可夫模型
贝叶斯网
概率图模型 (Probabilistic Graphical Model,PGM) 是指一种用图来描述变量关系的概率模型。概率图模型的好处是提供了一种简单的可视化概率模型的方法,有利于设计 ...
机器学习(V)--无监督学习(三)EM算法
EM算法
极大似然估计
极大似然估计:(maximum likelihood estimate, MLE) 是一种常用的模型参数估计方法。它假设观测样本出现的概率最大,也即样本联合概率(也称似然 ...