超越DeepSeek GRPO的关键RL算法,字节、清华AIR开源DAPO
- 2025-03-18 14:46:00
- 刘大牛 转自文章
- 507
项目页面:https://dapo-sia.github.io/ 论文地址:https://dapo-sia.github.io/static/pdf/dapo_paper.pdf 代码地址:https://github.com/volcengine/verl/tree/gm-tyx/puffin/main/recipe/dapo 数据:https://huggingface.co/datasets/BytedTsinghua-SIA/DAPO-Math-17k
。然后,通过对群组级奖励
进行归一化来计算第 i 个响应的优势:
进行采样,并通过以下目标优化策略:
(图 3a)。这一发现支持了他们的分析,即上限剪辑阈值确实限制了低概率 token 的概率增长,从而可能限制了系统的多样性。
发表评论
文章分类
联系我们
| 联系人: | 透明七彩巨人 |
|---|---|
| Email: | weok168@gmail.com |
| 网址: | ai.tmqcjr.com |