机器学习(VII)--强化学习(五)值函数近似

发表于2024-08-29|更新于2024-09-06|Artificial IntelligenceMachine Learning

|总字数:1.1k|阅读时长:5分钟|浏览量:

值函数近似

前面我们一直假定强化学习任务是在有限状态空间上进行，值函数则使用有限状态的表来表示。然而，现实强化学习任务，所面临的状态空间往往是连续的，有无穷多个状态，显然无法用表格来记录。我们不妨直接学习连续状态空间的连续值函数。由于此时的值函数难以像有限状态那样精确记录每个状态的值，因此这样值函数的求解被称为值函数近似 (value function approximation)。

下面介绍一个简单的示例，它能帮助我们更加理解连续空间的强化学习过程。

路径寻找：如下图，在一个连续的平面世界中，包括平坦区域、草地和边界。状态空间是连续的 $\mathcal S=[0,6]\times[0,6]$ ，但动作空间是离散的，仍然只有5种行走方向 $\mathcal A=\{\uparrow,\leftarrow,\downarrow,\rightarrow,\circlearrowleft\}$ 。如果Agent在平坦区域每单位路程奖励 -1 ；在草坪的每单位路程奖励 -2；在目标区域的奖励为 0。

From table to function

$\hat v(s,w)\approx v_{\pi}(s)$

我们需要学习一个参数 $w$ 来使得函数 $\hat v(s,w)$ 可以逼近值函数 $v_{\pi}(s)$ 。常用期望误差来作为损失函数：

$J(w)=\mathbb E[(\hat v(S,w)-v_{\pi}(S))^2]$

为了使误差最小化，采用梯度下降法

$\nabla_wJ(w)=\mathbb E[2(\hat v(s,w)-v_{\pi}(s))\nabla_w\hat v(s,w)]$

于是可得到对于单个样本随机梯度下降的更新规则

$w_{t+1}=w_t+\alpha[v_{\pi}(s_t)-\hat v(s_t,w_t)]\nabla_{w}\hat v(s_t,w_t)$

我们并不知道策略的真实值函数 $v_{\pi}$ 。如果采用蒙特卡罗方法近似总回报 $G_t$

$w_{t+1}=w_t+\alpha[g_t-\hat v(s_t,w_t)]\nabla_{w}\hat v(s_t,w_t)$

如果采用时序差分学习方法近似 $R_{t+1}+\gamma v(S_{t+1})$

$w_{t+1}=w_t+\alpha[r_{t+1}+\gamma \hat v(s_{t+1},w_t) -\hat v(s_t,w_t)]\nabla_{w}\hat v(s_t,w_t)$

注意：上式中看到了离散化的时刻，可看作 agent 与环境每隔 $\delta t$ 时间交互一次。

线性函数：值函数一般采用线性函数估计

$\hat v(s,w)=w^T\phi(s)$

例如在平面世界中估计值函数

$\hat v(s,w)=ax+by+c= \begin{bmatrix}a&b&c\end{bmatrix} \begin{bmatrix}x\\y\\1\end{bmatrix}$

其中 $\phi(s)=[x,y,1]^T$ 称为特征向量 (feature vector)， $w=[a,b,c]$ 称为参数向量 (parameter vector)。

线性函数使用SGD来更新参数时非常方便，梯度

$\nabla_{w}\hat v(s,w)=\phi(s)$

单个样本随机梯度下降

$w_{t+1}=w_t+\alpha[r_{t+1}+\gamma w_t^T\phi(s_{t+1})- w_t^T\phi(s_{t})]\phi(s_{t})$

下面是基于线性值面数估计的例子

n-order多项式估计

Q-learning：TD 算法估计的是动作值函数

$\hat q(s,a,w)\approx q_{\pi}(s,a)$

更新参数的一般形式是

$w_{t+1}=w_t+\alpha[r_{t+1}+\gamma \max_{a\in\mathcal A}\hat q(s_{t+1},a,w_t) -\hat q(s_t,a_t,w_t)]\nabla_{w}\hat q(s_t,a_t,w_t)$

文章作者: Tiny Lei

文章链接: https://www.tinylei.tech/posts/2bd55622/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源雷小小！

赞助

Give me money!

相关推荐

机器学习(V)--无监督学习(一)聚类

根据训练样本中是否包含标签信息，机器学习可以分为监督学习和无监督学习。聚类算法是典型的无监督学习，目的是想将那些相似的样本尽可能聚在一起，不相似的样本尽可能分开。相似度或距离聚类的核心概念...

深度学习(III)--循环神经网络(RNN)

循环神经网络序列模型前馈神经网络可以看作一个复杂的函数，每次输入都是独立的，即网络的输出只依赖于当前的输入。但是在很多现实任务中，网络的输出不仅和当前时刻的输入相关，也和其过去一段时间的输出...

机器学习中的优化算法

优化是找出函数的最大值或最小值的方法

机器学习(IV)--监督学习(七)集成学习

集成学习集成学习集成学习（ensemble learning）通过构建基学习器（base learner）集合 {h1,h2,⋯ ,hM}\{h_1,h_2,\cdots,h_M\}{h1...

机器学习(VIII)--概率图模型(一)隐马尔可夫模型

贝叶斯网概率图模型 (Probabilistic Graphical Model，PGM) 是指一种用图来描述变量关系的概率模型。概率图模型的好处是提供了一种简单的可视化概率模型的方法，有利于...

深度学习(IV)--注意力机制

注意力机制注意力在传统的机器学习模型中，尤其是在处理序列数据（如文本、语音、时间序列）时，模型通常需要将整个输入序列压缩成一个固定长度的向量（例如，使用RNN的最后一个隐藏状态），然后再基于...

评论

数据加载中