Python(Scientific Computing)--Cython
旨在融合 Python 的易用性和 C 语言的高性能
C++ 标准库
Containers 简介 容器是用来存储数据的序列,每个容器都作为模板类实现。不同的容器提供了不同的存储方式和访问模式。一般分为 4 种类型: 序列容器:是指那些在容器中按顺序存放元素的容...
C++ 快速入门
C 语言是一种通用的、过程式的编程语言,广泛用于系统软件和应用程序开发。C++ 进一步扩充和完善了 C 语言,是一种面向对象的程序设计语言。 https://en.cppreference.co...
Python(Machine Learning)--CatBoost
Quick Start Catboost 是旨在高效处理类别特征的梯度提升算法,内置多种正则化手段,减少梯度偏差和预测偏移,提高模型的准确性和泛化能力,采用对称决策树,在每个层级使用相同的特征和...
Java简单使用
基本语法 Java 官方文档 主函数 以下我们通过一个简单的实例来展示 Java 编程。首先创建文件 Hello.java import javax.swing.*;public class H...
机器学习(VII)--强化学习(七)Actor-Critic
Actor-Critic QAC Actor-Critic 算法结合了值函数近似和策略函数近似: Actor 负责更新策略函数 π(a∣s,θ)\pi(a|s,\theta)π(a∣s,θ) ...
机器学习(VII)--强化学习(六)策略梯度方法
策略梯度方法 基本思路 策略梯度(Policy Gradients)方法特别适用于处理高维或连续的动作和状态空间,而这些在基于值的方法中通常很难处理。 From table to functio...
机器学习(VII)--强化学习(五)值函数近似
值函数近似 前面我们一直假定强化学习任务是在有限状态空间上进行,值函数则使用有限状态的表来表示。然而,现实强化学习任务,所面临的状态空间往往是连续的,有无穷多个状态,显然无法用表格来记录。我们不...
机器学习(VII)--强化学习(四)时序差分方法
时序差分方法 基本思路 蒙特卡罗方法一般需要拿到完整的轨迹,才能对策略进行评估并更新模型,因此效率也比较低。时序差分学习(Temporal-Difference Learning)方法是蒙特卡罗...
机器学习(VII)--强化学习(三)蒙特卡洛方法
蒙特卡洛方法 在现实的强化学习任务中,模型参数(状态转移函数与奖赏函数)往往很难得知,因此我们一般需要智能体和环境进行交互,并收集一些样本,然后再根据这些样本来求解马尔可夫决策过程最优策略,这便...






