Kimi k1.5 背后的技术突破与深度思考:探索类人思考的 AI 路径
发布时间:2025-02-21月之暗面Kimi 2月17日消息,月之暗面研究员 Flood Sung 在知乎分享的 Kimi k1.5 模型背后的思考过程引发广泛关注,获得超 2000 点赞并被多家媒体转载,其英文版在 Twitter 也收获近 7 万阅读量。这一分享为人们深入了解 Kimi k1.5 的研发思路提供了宝贵视角。
2024 年 9 月 12 日,OpenAI o1 发布,其 Long-CoT 技术的出色表现让 Kimi 团队意识到该技术的巨大潜力,尽管此前因成本考量有所忽视,但此刻他们决心深入研究。为探寻 o1 和 RL-LLM 的实现方式,团队进行多方面探索。通过观察 o1 官网示例,发现其可犯错、会反思尝试且思考方法多样的特点。同时,Noam Brown 和 Hyung Won Chung 的讲座视频也带来关键启发:Noam Brown 强调 Test-Time Search 的重要性,这意味着模型应具备自行搜索的能力;Hyung Won Chung 则指出减少对模型思考的结构化限制,让其自由探索的必要性。基于这些,Kimi 团队果断排除 MCTS 等结构化方法,并认为 Agentic Workflow 虽有短期价值,长期来看会被模型自身能力取代掉。此外,Noam Brown 在视频 49 分 44 秒处的 PPT 至关重要。 其 “Future Work” 部分指出,规划是学术研究的优质领域,大公司倾向于高前期成本、低推理成本,建议在有外部验证器的领域开展研究,避免受奖励模型质量制约。该观点直接启发 Kimi 团队开展精确 Reward 的 RL 训练,为模型训练指明方向。
在明确训练方向后,Kimi 团队面临用 RL 训练 LLM 通过 Long-CoT 做题的难题。由于 Long-CoT 将问题建模为 in context RL,且自带自我反思机制,使得每句话的价值难以估计,传统的 PRM 方式不再适用。经过思考,团队转换思路,将问题转化为 Contextual Bandit 问题,采用 REINFORCE 变种算法进行训练,通过做对加梯度、做错减梯度的方式优化模型,并在训练中加入 KL 散度、奖励归一化等技巧提升稳定性。实际训练过程中,团队惊喜地发现模型会随着训练自发增加 token 数,性能也随之提升,这与 Deepseek 的发现不谋而合。
Kimi k1.5 的研发历程不仅展示了团队对先进技术的追求,更体现出对 AI 发展方向的深度思考。Flood Sung 认为,AGI 已近在咫尺,而对于做 RL 的人来说,从来都不会把 AGI作为目标。通过为 AI 设定可衡量目标,让其自行探索,通过 RL 提升模型能力,就能逐步实现。未来,AI 有望在模拟驾驶、创作公众号文章、开发应用程序、撰写高质量科研论文等更复杂场景中发挥作用。
这一分享让人们看到 Kimi 团队在 AI 探索道路上的努力,也为行业发展提供了重要参考,激励更多研究者在 AI 领域不断前行,探索更多可能。
https://mp.weixin.qq.com/s/sJmT-tM3A-mglZ1d4OI80A
https://www.zhihu.com/question/10114790245/answer/84028353434
来源:月之暗面Kimi