阶跃星辰推出推理模型Step Reasoner mini
发布时间:2025-01-201月16日,阶跃星辰推出自研推理模型 Step Reasoner mini(简称Step R-mini)。
Step Reasoner mini 是 Step 系列模型家族的首个推理模型,擅长主动进行规划、尝试和反思,能通过慢思考和反复验证的逻辑机制,为用户提供准确可靠的回复。它既擅长通过超长推理能力,解决逻辑推理、代码和数学等复杂问题,也能兼顾文学创作等通用领域。
目前,阶跃星辰自研的 Step 系列基座模型矩阵,已经覆盖了从语言、多模态到推理的全面能力。
文理兼修
在AIME 和 Math 等数学基准测试上,Step Reasoner mini 的成绩超过了 o1-preview,比肩 OpenAI o1-mini。在 LiveCodeBench 代码任务上,也比o1-preview 效果更佳。
值得一提的是,目前大部分推理模型难以兼顾文理科双方向能力,随着训练参数规模增加,模型的文科能力会得到提升,但也会因此损失确定性,造成理工科能力的下滑。Step Reasoner mini 通过大规模的强化学习训练,并使用 On-Policy(同策略)强化学习算法,实现了“文理兼修”。Step Reasoner mini 除了能准确解答数学、代码、逻辑推理问题,还能富有创意地完成文学内容创作和日常聊天的任务。
范式转移 Scaling Law不变
Step Reasoner mini 作为推理大模型,其擅长的规划、尝试与反思机制背后,离不开我们对 Scaling Law 原则的坚持:
1. Scaling Reinforcement Learning:从模仿学习到强化学习,从人类偏好到环境反馈,我们坚持Scaling Reinforcement Training,以 Reinforcement Learning 为模型迭代的核心训练阶段。
2. Scaling Data Quality:数据质量是重中之重。在确保数据质量的前提下,我们持续扩大数据分布与规模,为 Reinforcement Learning 训练提供坚实保障。
3. Scaling Test-Time Compute:坚定执行 Training-Time Scaling 的同时,亦兼顾 Test-Time Scaling。在测试阶段我们发现,System 2 的范式让 Step-Reasoner mini 能在极复杂任务推理上,达到 50,000 tokens 来进行深度思考。
4. Scaling Model Size:我们坚持 Model Scaling 仍然是 System-2 的核心,已经在开发更智能、更通用、综合能力更强的 Step Reasoner 推理模型。
应用案例
数学题:能构建合理的推理链,选择最佳的解题公式,多次自我追问确定是否有没被考虑到的因素,展现出全面严谨的思维链路。
逻辑推理题:能自主进行多种解题思路的尝试,在得到初步答案后,会自我反问尝试有没有其他可能性,确保枚举出所有效果良好的解决方案,并在交卷前检查有无遗漏。。
代码题:可正确解答 LeetCode技术平台上“Hard”级算法题,还可以处理复杂的开发需求,逐步分析用户的需求和意图,构建代码逻辑,在代码写作中穿插对当前代码片段的分析和验证,最终给到可执行的代码。
内容创作:能够深入理解用户的表达需求,会先分析用户对创作主题、文学题材的要求,然后思考处理创作角度、描绘的景物、修辞手法、内容结构,赋予事物人类情感层面的象征意义,并增加个性化的、创新的表达风格。
翻译问题:翻译 “I'm not in danger, I'm the danger。” 时,遵循 “信达雅” 原则,经多种尝试后给出既准确传达原意又霸气的译文,如 “我非但无险,我就是那险途” 等。
视觉推理模型
除语言推理模型,也在打造视觉推理模型,将推理能力融入更多交互形态的大模型中。针对复杂视觉场景下的Reasoning 问题,引入了慢感知和空间推理的思想,把 Test-Time Scaling 从文本空间转移到视觉空间,实现在视觉空间下的 Spatial-Slow-Thinking。
https://mp.weixin.qq.com/s/UAlrXtJjGarUR5riPuD0iA
来源:阶跃星辰