200 多行代码,低成本复现 DeepSeek R1「Aha Moment」,复旦大学开源!
发布时间:2025-02-21机器之心2月18日消息,复旦大学知识工场实验室肖仰华教授、梁家卿青年副研究员团队发布最新研究成果,他们基于GRPO算法,用仅 200 多行代码高效复现了 DeepSeek R1-zero 的自发反思能力,并将项目(Simple-GRPO)第一版代码开源至 Github。
DeepSeek-R1-zero 经过强化学习实现的「Aha Moment」,使模型具备类似人类的自我反思和策略调整能力,因此引发大量对其方案的解读与复现工作。然而,此前业界基于GRPO算法的复现项目存在诸多问题,如严重依赖复杂代码框架、代码实现复杂度高、部署环境要求高、资源利用率低以及代码可读性和可维护性欠佳等。
复旦大学团队的 Simple-GRPO 项目则优势明显。其一,代码简洁且依赖简单,仅依赖 deepspeed 和 torch 等基础的深度学习代码库,无需 ray 等复杂框架,整个项目仅 200 多行代码,方便研究者理解和进行更复杂的干预。其二,资源消耗低,通过模型解耦与分离,支持在一张 A800 (80G) 加一张 3090 (24G) 完成 7B 模型的训练,大大降低了算力需求。按 AutoDL 平台计费标准,训练 1 小时成本仅约 7.3 元。
实验结果显示,Qwen2.5-3B在GSM8K和Math混合数据集上训练后,准确率在5步的优化后稳定在60%以上,最高可达70%,格式遵循能力在30步后接近100%;Qwen2.5-7B在GSM8K数据集上训练时,准确率和格式遵循能力都在30步以内快速收敛,准确率始终保持在90%以上,格式遵循能力达到100%。
不过,团队也指出项目存在待改进之处。在组内答案同质性问题上,后续将实时监控答案分布,重新采样和分组同质化答案,以解决奖励函数分配问题,助力模型收敛。针对长思维链(CoT)显存占用问题,计划拆分组别、减小批次大小或分阶段处理长序列,降低 GPU 内存开销,提升训练效率。
该项目为相关领域研究提供了新的思路和方法,有望推动该领域进一步发展。
代码地址:https://github.com/lsdefine/simple_GRPO
参考链接:https://mp.weixin.qq.com/s/hFArGyWTRTkQIMeStg279w
来源:机器之心