DeepSeek团队新作:把代码变成思维链,大模型推理各种能力全面提升

发布时间:2025-02-18

量子位 2 月 17 日消息,DeepSeek团队发布了一项最新研究,通过将代码转换成思维链的方式,全面提升了大模型的各种推理能力。研究团队认为,在代码当中暗含了不同类型场景的思考过程,于是想要把这种思考过程“提取”出来训练推理模型。他们利用300多万个实例构建了数据集CODEI/O,并对Qwen、Llama等模型进行了训练。结果显示,模型不仅在代码相关任务上表现出色,还在非代码类推理任务中展现出了良好的迁移能力。

研究团队从CodeMix、PyEdu-R等数据集中收集了80多万份代码文件,涵盖多种编程语言(以Python为主),任务类型多样,蕴含丰富的推理模式。这些代码文件经预处理,被转换为统一格式,提取核心逻辑功能并定义输入输出。通过输入生成器采样多个输入并执行代码获得输出,最终生成了350万个样本实例。利用DeepSeek-V2.5模型,将代码、输入输出对、功能描述等信息合成为自然语言思维链(CoT),构建了CODEI/O数据集。在此基础上,团队引入验证和修订机制,形成了更高质量的CODEI/O++数据集。

在训练策略上,团队采用两阶段训练方法。首先使用CODEI/O或CODEI/O++训练推理能力,然后用通用指令数据集进行微调,使模型能够遵循自然语言指令执行任务。测试结果显示,经过CODEI/O训练的模型在多个领域表现显著提升。例如,Qwen-Coder在代码理解任务上取得突破性进展,并且在阅读理解和推理任务上也有明显提升;Llama在LeetCode-O上的性能提升了近150%,表明即使是参数量较小的模型,通过合适的训练方法也能在特定任务上获得较大提升;Gemma作为测试中最大的模型,也展示了CODEI/O方法在大规模模型上的适用性;与数据量更大的WebInstruct相比,CODEI/O整体上取得了更好的效果,且在通用性上优于专门为某种任务设计的数据集。

这研究的第一作者是来自上海交大的硕士生Junlong Li,目前在DeepSeek实习,并在香港科技大学助理教授何俊贤的指导下进行研究工作。DeepSeek核心研究员郭达雅也参与了该项目。

论文地址:https://arxiv.org/abs/2502.07316

GitHub:https://github.com/hkust-nlp/CodeIOhttps://mp.weixin.qq.com/s/2Xb8hdrZe0JcLjBdKfktkQ

数据集:https://huggingface.co/datasets/hkust-nlp/CodeIO-PyEdu-Reasoning

参考链接:https://mp.weixin.qq.com/s/2Xb8hdrZe0JcLjBdKfktkQ

来源:量子位