跳转到内容
魔法窝瓜
搜索文档
K
Main Navigation
首页
技能与工具
机器学习
自由探索
归途思语
主题
菜单
回到顶部
本页目录
大模型中的强化学习
乱花渐欲迷人眼。基础知识有很多,知其然很重要。在此基础上,找到一个方向去深度的探索,知其所以然更重要。
对于 RL for LLM 重要的工作大致为:
推理
Agent(s)
实现框架
verl
OpenRLHF