跳转到内容

Main Navigation 首页技能与工具机器学习自由探索归途思语

主题

Sidebar Navigation

机器学习

人工智能基础

Agent

RAG

大模型训练

论文精读

初识论文

DS-MoE

AI_Oscars

Marco1

GRPO

Optimus-2

强化学习

初识 RL

马尔可夫决策过程

贝尔曼方程

动态规划

蒙特卡洛方法

TD 方法

DQN

策略梯度法

PPO

大模型中的强化学习

本页目录

大模型中的强化学习

乱花渐欲迷人眼。基础知识有很多，知其然很重要。在此基础上，找到一个方向去深度的探索，知其所以然更重要。

对于 RL for LLM 重要的工作大致为：

推理
Agent(s)

实现框架

verl
OpenRLHF

在 GitHub 上编辑此页面

最后更新于:

Pager

基于 MIT 许可发布

版权所有 © 2024-2025 魔法窝瓜