雷小小 - 寄蜉蝣于天地，渺沧海之一粟

旨在融合 Python 的易用性和 C 语言的高性能

发表于2025-03-04|C++Basics

Containers 简介容器是用来存储数据的序列，每个容器都作为模板类实现。不同的容器提供了不同的存储方式和访问模式。一般分为 4 种类型：序列容器：是指那些在容器中按顺序存放元素的容...

发表于2025-03-03|C++Basics

C 语言是一种通用的、过程式的编程语言，广泛用于系统软件和应用程序开发。C++ 进一步扩充和完善了 C 语言，是一种面向对象的程序设计语言。 https://en.cppreference.co...

Quick Start Catboost 是旨在高效处理类别特征的梯度提升算法，内置多种正则化手段，减少梯度偏差和预测偏移，提高模型的准确性和泛化能力，采用对称决策树，在每个层级使用相同的特征和...

发表于2024-09-17|JavaBasics

基本语法 Java 官方文档主函数以下我们通过一个简单的实例来展示 Java 编程。首先创建文件 Hello.java import javax.swing.*;public class H...

Actor-Critic QAC Actor-Critic 算法结合了值函数近似和策略函数近似： Actor 负责更新策略函数 π(a∣s,θ)\pi(a|s,\theta)π(a∣s,θ) ...

策略梯度方法基本思路策略梯度(Policy Gradients)方法特别适用于处理高维或连续的动作和状态空间，而这些在基于值的方法中通常很难处理。 From table to functio...

值函数近似前面我们一直假定强化学习任务是在有限状态空间上进行，值函数则使用有限状态的表来表示。然而，现实强化学习任务，所面临的状态空间往往是连续的，有无穷多个状态，显然无法用表格来记录。我们不...

时序差分方法基本思路蒙特卡罗方法一般需要拿到完整的轨迹，才能对策略进行评估并更新模型，因此效率也比较低。时序差分学习（Temporal-Difference Learning）方法是蒙特卡罗...

蒙特卡洛方法在现实的强化学习任务中，模型参数（状态转移函数与奖赏函数）往往很难得知，因此我们一般需要智能体和环境进行交互，并收集一些样本，然后再根据这些样本来求解马尔可夫决策过程最优策略，这便...