歸藏的AI工具箱

显存狂降80%!Unsloth黑科技优化GRPO流程,让人人都能训自己的Deepseek R1

Bloger
显存狂降80%!Unsloth黑科技优化GRPO流程,让人人都能训自己的Deepseek R1 by 歸藏的AI工具箱 我们知道 Deepseek R1 核心的贡献是揭示了一个“aha”时刻,在 R1-Zero 中通过使用 GRPO (Group Relative Policy Optimization)在没有人类反馈的情况下自主学会了分配更多的思考时间。 开源社区也在其他模型上复现了类似的表现,不过成本很高,比如为Qwen2.