雷小小 - 寄蜉蝣于天地，渺沧海之一粟

蒙特卡洛方法在现实的强化学习任务中，模型参数（状态转移函数与奖赏函数）往往很难得知，因此我们一般需要智能体和环境进行交互，并收集一些样本，然后再根据这些样本来求解马尔可夫决策过程最优策略，这便是无 ...

动态规划从贝尔曼方程可知，如果知道马尔可夫决策过程的状态转移概率和奖励函数，我们直接可以通过贝尔曼方程来迭代计算其值函数。这种模型已知的强化学习算法也称为基于模型的方法(Model-Based)， ...

强化学习 (Reinforcement Learning，RL) 可以描述为智能体 (Agent) 与环境 (Environment) 的交互中不断学习以完成特定目标（比如取得最大奖励值）的过程。【 ...

监督学习往往需要大量的标注数据，而标注数据的成本比较高.因此，利用大量的无标注数据来提高监督学习的效果有着十分重要的意义。这种利用少量标注数据和大量无标注数据进行学习的方式称为半监督学习(Semi-S ...

马尔可夫随机场基本概念有向图表达是变量之间的关系是单向关系，即一个影响另一个，比如因果关系。但很多时候变量之间的关系是互相影响的，这时候有向图将不是那么方便了。无向图模型 (Undirec ...

贝叶斯网概率图模型 (Probabilistic Graphical Model，PGM) 是指一种用图来描述变量关系的概率模型。概率图模型的好处是提供了一种简单的可视化概率模型的方法，有利于设计 ...

EM算法极大似然估计极大似然估计：(maximum likelihood estimate, MLE) 是一种常用的模型参数估计方法。它假设观测样本出现的概率最大，也即样本联合概率（也称似然 ...

线性判别分析线性判别分析（Linear Discriminant Analysis，LDA）亦称 Fisher 判别分析。其基本思想是：将训练样本投影到低维超平面上，使得同类的样例尽可能近，不同类 ...

流形学习【降维技巧 | 导论与流形学习 | 中文字幕-哔哩哔哩】流形学习（manifold learning）是一种借助拓扑流形概念的降维方法，流形是指在局部与欧式空间同胚的空间，即在局部与欧式 ...

当数据的维度很高时，很多机器学习问题变得相当困难，这种现象被称为维度灾难（curse of dimensionality）。在很多实际的问题中，虽然训练数据是高维的，但是与学习任务相关也许仅仅是其中 ...