雷小小 - 寄蜉蝣于天地，渺沧海之一粟

动态规划从贝尔曼方程可知，如果知道马尔可夫决策过程的状态转移概率和奖励函数，我们直接可以通过贝尔曼方程来迭代计算其值函数。这种模型已知的强化学习算法也称为基于模型的方法(Model-Based...

强化学习 (Reinforcement Learning，RL) 可以描述为智能体 (Agent) 与环境 (Environment) 的交互中不断学习以完成特定目标（比如取得最大奖励值）的过程...

监督学习往往需要大量的标注数据，而标注数据的成本比较高.因此，利用大量的无标注数据来提高监督学习的效果有着十分重要的意义。这种利用少量标注数据和大量无标注数据进行学习的方式称为半监督学习(Sem...

马尔可夫随机场基本概念有向图表达是变量之间的关系是单向关系，即一个影响另一个，比如因果关系。但很多时候变量之间的关系是互相影响的，这时候有向图将不是那么方便了。无向图模型 (Undire...

贝叶斯网概率图模型 (Probabilistic Graphical Model，PGM) 是指一种用图来描述变量关系的概率模型。概率图模型的好处是提供了一种简单的可视化概率模型的方法，有利于...

EM算法极大似然估计极大似然估计：(maximum likelihood estimate, MLE) 是一种常用的模型参数估计方法。它假设观测样本出现的概率最大，也即样本联合概率（也称似...

线性判别分析线性判别分析（Linear Discriminant Analysis，LDA）亦称 Fisher 判别分析。其基本思想是：将训练样本投影到低维超平面上，使得同类的样例尽可能近，不...

流形学习【降维技巧 | 导论与流形学习 | 中文字幕-哔哩哔哩】流形学习（manifold learning）是一种借助拓扑流形概念的降维方法，流形是指在局部与欧式空间同胚的空间，即在局部与...

当数据的维度很高时，很多机器学习问题变得相当困难，这种现象被称为维度灾难（curse of dimensionality）。在很多实际的问题中，虽然训练数据是高维的，但是与学习任务相关也许仅仅...

根据训练样本中是否包含标签信息，机器学习可以分为监督学习和无监督学习。聚类算法是典型的无监督学习，目的是想将那些相似的样本尽可能聚在一起，不相似的样本尽可能分开。相似度或距离聚类的核心概念...