当前位置：动态资讯

k1.5 新模型登场：Kimi 如何做到满血版多模态o1水平（附技术报告）

发布时间：2025-01-22

1月20日， Kimi发布的全新SOTA模型 ——k1.5 多模态思考模型。这是继去年 11 月发布 k0-math 数学模型、12月发布 k1 视觉思考模型之后，连续第三个月带来 k 系列强化学习模型的重磅升级。

一、k1.5多模态思考模型

K1.5性能方面，实现了 SOTA级别的多模态推理和通用推理能力。

具体来说，在 short - CoT 模式下，k1.5 的数学、代码、视觉多模态和通用能力大幅超越 GPT - 4o 和 Claude 3.5 Sonnet 等短思考 SOTA 模型，领先达 550%。在 long-CoT 模式下，Kimi k1.5 的数学、代码、多模态推理能力，也达到长思考 SOTA 模型 OpenAI o1 正式版的水平。这应该是全球范围内，OpenAI 之外的公司首次实现 o1 正式版的多模态推理性能。

2fr2.1.png

2fr2.2.png

二、SOTA模型是如何训练出来的

Kimi 技术团队同步发布了模型训练技术报告，记录和分享新技术范式下的模型训练技术探索之路。

技术报告：Kimi k1.5：借助大语言模型实现强化学习的 Scaling
报告链接：https://github.com/MoonshotAI/kimi-k1.5）。

从技术报告来看，k1.5 模型设计和训练的几个关键要素：

长上下文扩展。将 RL 的上下文窗口扩展到 128k，随着上下文长度的增加，性能持续提升。该方法的关键思想是，使用部分展开（partial rollouts）来提高训练效率——即通过重用大量先前的轨迹来采样新的轨迹，避免了从头开始重新生成新轨迹的成本。技术团队观察表明，上下文长度是通过 LLMs 持续扩展RL的一个关键维度。

改进的策略优化。推导出了long-CoT的 RL 公式，并采用在线镜像下降的变体进行稳健的策略优化。该算法通过有效采样策略、长度惩罚和数据配方的优化进一步得到改进。

简洁的框架。长上下文扩展与改进的策略优化方法相结合，为通过LLMs学习建立了一个简洁的RL框架。由于能够扩展上下文长度，学习到的 CoTs 表现出规划、反思和修正的特性。增加上下文长度的效果是增加了搜索步骤的数量。因此，可以在不依赖更复杂技术（如蒙特卡洛树搜索、价值函数和过程奖励模型）的情况下实现强大的性能。

多模态能力。该模型在文本和视觉数据上联合训练，具有联合推理两种模态的能力，数学能力出众，但由于主要支持LaTeX等格式的文本输入，依赖图形理解能力的部分几何图形题则难以应对。

此外，他们提出了有效的long2short方法，利用 Long-CoT 技术来改进 Short-CoT 模型，在短链思维推理方面取得了SOTA成绩——例如，在AIME上达到60.8分，MATH500上达到94.6分，LiveCodeBench上达到47.3分——大幅超越了现有的短链思维模型，如GPT-4和Claude Sonnet 3.5（提升幅度高达550%）。

2fr2.4.png

k1.5 多模态思考模型预览版将陆续灰度上线 Kimi.com 网站和最新版本的 Kimi 智能助手 app，用户看到模型切换按钮即可试用。

2fr2.5.png

2025 年，他们会继续升级 k 系列强化学习模型，提升多模态、多领域及通用能力。

2fr2.3.png

https://mp.weixin.qq.com/s/BmOKGKjXP2tjmPyNdU0Hqg

来源：月之暗面Kimi

新闻公告

k1.5 新模型登场：Kimi 如何做到满血版多模态o1水平（附技术报告）