UC伯克利团队4500美元复刻DeepSeek成功,1.5B模型超越 o1-preview
发布时间:2025-02-21新智元2月11日消息,近日,UC 伯克利研究团队基于Deepseek-R1-Distilled-Qwen-1.5B,仅用 4500 美元成本,通过简单的强化学习(RL)微调,成功训练出 DeepScaleR-1.5B-Preview 模型,在 AIME2024 基准测试中超越 OpenAI o1-preview,震撼 AI 业界。
该团队基于 Deepseek-R1-Distilled-Qwen-1.5B 模型展开研究,面对强化学习计算成本高、DeepSeek 训练方法未完全公开的难题,创新性地采用知识蒸馏模型和强化学习迭代延长方法。他们精心构建训练数据集,从多来源收集数学竞赛题目,经答案提取、重复问题清理和不可评分题目过滤等步骤,得到约 4 万个独特的问题 - 答案对。在奖励函数设计上,借鉴 Deepseek-R1 经验,采用结果奖励模型(ORM),避免模型投机取巧。
训练策略上,团队采用 “先短后长” 的方法。先使用 DeepSeek 的 GRPO 方法,以 8k 上下文长度训练模型进行短思考,1000 步训练后,模型 token 使用量减少 3 倍,准确率比基础模型提升 5%。随着训练推进,当 8K 训练出现瓶颈时,团队将上下文长度扩展到 16K 和 24K。在 16K 上下文训练时,模型性能稳步提升;24K 上下文训练时,模型成功突破瓶颈,AIME2024 的 Pass@1 准确率达到 43.1%,超越 o1-preview。整个训练过程历时约 1750 步,共耗时约 3800 个 A100 小时,在多个竞赛级数学基准测试中表现优异。
这一成果意义重大,不仅证明强化学习在小型模型上也能发挥显著作用,而且表明将高质量的监督微调蒸馏和强化学习结合,能充分挖掘 LLM 的推理潜力。此前观点认为强化学习更适用于大型模型,而该研究打破这一认知,为小型模型提升推理能力提供了新路径。
目前,研究团队已开源数据集、代码和训练日志,为 AI 研究人员提供了宝贵资源,推动行业发展。网友纷纷称赞,认为这是机器学习与数学结合的成功范例,也是开源的又一次胜利。此次 UC 伯克利团队的突破,为 AI 领域的发展注入新动力,有望引发更多关于模型训练和优化的探索。
参考链接:https://mp.weixin.qq.com/s/g2PfdI8N1oU7RWU0owh75Q
来源:新智元