当前位置：动态资讯

DeepSeek团队新作：把代码变成思维链，大模型推理各种能力全面提升

发布时间：2025-02-18

量子位 2 月 17 日消息，DeepSeek团队发布了一项最新研究，通过将代码转换成思维链的方式，全面提升了大模型的各种推理能力。研究团队认为，在代码当中暗含了不同类型场景的思考过程，于是想要把这种思考过程“提取”出来训练推理模型。他们利用300多万个实例构建了数据集CODEI/O，并对Qwen、Llama等模型进行了训练。结果显示，模型不仅在代码相关任务上表现出色，还在非代码类推理任务中展现出了良好的迁移能力。

研究团队从CodeMix、PyEdu-R等数据集中收集了80多万份代码文件，涵盖多种编程语言（以Python为主），任务类型多样，蕴含丰富的推理模式。这些代码文件经预处理，被转换为统一格式，提取核心逻辑功能并定义输入输出。通过输入生成器采样多个输入并执行代码获得输出，最终生成了350万个样本实例。利用DeepSeek-V2.5模型，将代码、输入输出对、功能描述等信息合成为自然语言思维链（CoT），构建了CODEI/O数据集。在此基础上，团队引入验证和修订机制，形成了更高质量的CODEI/O++数据集。

在训练策略上，团队采用两阶段训练方法。首先使用CODEI/O或CODEI/O++训练推理能力，然后用通用指令数据集进行微调，使模型能够遵循自然语言指令执行任务。测试结果显示，经过CODEI/O训练的模型在多个领域表现显著提升。例如，Qwen-Coder在代码理解任务上取得突破性进展，并且在阅读理解和推理任务上也有明显提升；Llama在LeetCode-O上的性能提升了近150%，表明即使是参数量较小的模型，通过合适的训练方法也能在特定任务上获得较大提升；Gemma作为测试中最大的模型，也展示了CODEI/O方法在大规模模型上的适用性；与数据量更大的WebInstruct相比，CODEI/O整体上取得了更好的效果，且在通用性上优于专门为某种任务设计的数据集。

这研究的第一作者是来自上海交大的硕士生Junlong Li，目前在DeepSeek实习，并在香港科技大学助理教授何俊贤的指导下进行研究工作。DeepSeek核心研究员郭达雅也参与了该项目。

论文地址：https://arxiv.org/abs/2502.07316

GitHub：https://github.com/hkust-nlp/CodeIOhttps://mp.weixin.qq.com/s/2Xb8hdrZe0JcLjBdKfktkQ

数据集：https://huggingface.co/datasets/hkust-nlp/CodeIO-PyEdu-Reasoning

参考链接：https://mp.weixin.qq.com/s/2Xb8hdrZe0JcLjBdKfktkQ

来源：量子位

新闻公告

DeepSeek团队新作：把代码变成思维链，大模型推理各种能力全面提升