Git 快速参考指南
Git 起步
版本控制系统
Git 是一个开源的分布式版本控制系统(Distributed Version Control System)。Git 和其它版本控制系统(包括 Subversion ...
Python(Scientific Computing)--Cython
旨在融合 Python 的易用性和 C 语言的高性能
C++ 标准库
Containers
简介
容器是用来存储数据的序列,每个容器都作为模板类实现。不同的容器提供了不同的存储方式和访问模式。一般分为 4 种类型:
序列容器:是指那些在容器中按顺序存放元素的容器 ...
C++ 快速入门
C 语言是一种通用的、过程式的编程语言,广泛用于系统软件和应用程序开发。C++ 进一步扩充和完善了 C 语言,是一种面向对象的程序设计语言。
https://en.cppreference.com/w ...
Python(Machine Learning)--CatBoost
Quick Start
Catboost 是旨在高效处理类别特征的梯度提升算法,内置多种正则化手段,减少梯度偏差和预测偏移,提高模型的准确性和泛化能力,采用对称决策树,在每个层级使用相同的特征和分割 ...
Java简单使用
基本语法
Java 官方文档
主函数
以下我们通过一个简单的实例来展示 Java 编程。首先创建文件 Hello.java
import javax.swing.*;public class He ...
机器学习(VII)--强化学习(七)Actor-Critic
Actor-Critic
QAC
Actor-Critic 算法结合了值函数近似和策略函数近似:
Actor 负责更新策略函数 π(a∣s,θ)\pi(a|s,\theta)π(a∣s,θ)
...
机器学习(VII)--强化学习(六)策略梯度方法
策略梯度方法
基本思路
策略梯度(Policy Gradients)方法特别适用于处理高维或连续的动作和状态空间,而这些在基于值的方法中通常很难处理。
From table to function ...
机器学习(VII)--强化学习(五)值函数近似
值函数近似
前面我们一直假定强化学习任务是在有限状态空间上进行,值函数则使用有限状态的表来表示。然而,现实强化学习任务,所面临的状态空间往往是连续的,有无穷多个状态,显然无法用表格来记录。我们不妨直 ...
机器学习(VII)--强化学习(四)时序差分方法
时序差分方法
基本思路
蒙特卡罗方法一般需要拿到完整的轨迹,才能对策略进行评估并更新模型,因此效率也比较低。时序差分学习(Temporal-Difference Learning)方法是蒙特卡罗方 ...