绕开DeepSeek技术思路,马普所团队开源推理模型新路线
发布时间:2025-02-21DeepTech深科技 2 月 12 日消息,当众多 AI 开发者聚焦 DeepSeek 技术路线时,来自德国马普所智能系统研究所、美国马里兰大学和美国劳伦斯利弗莫尔国家实验室的团队,提出一种全新的推理模型路线,该路线绕开思维链,通过采取深度循环隐式推理方式,为大模型性能扩展开辟了新维度。
该团队研发出一种新型语言模型架构,通过潜空间中的隐式推理来扩展测试时计算,打造出概念验证模型 Huginn,其参数规模为 3.5B,在 800B tokens 数据上完成预训练。Huginn 通过迭代循环块工作,能在测试时灵活扩展深度,与主流推理模型形成差异。它无需专用训练数据,可在较小上下文窗口中工作,还能捕捉难以文字表述的推理类型。
研究人员在全球首台“百亿亿次级”超算 Frontier 上对模型进行训练。在训练过程中,他们对数据集、分词器等进行优化,并利用多种技术提升训练效率。最终实验结果显示,Huginn 在编程能力上击败所有通用开源模型,数学能力也超过除最新版 OLMo - 2之外的所有模型。
尽管 Huginn 目前只是概念验证原型,但研究人员认为其展现出的潜在推理能力前景广阔,为测试时间计算缩放方法提供了新方向。未来,团队计划采用更优化的训练策略,进一步提升模型性能。此次研究成果为推理模型发展开辟了新路径,有望推动 AI 领域的进一步发展。
参考链接:https://mp.weixin.qq.com/s/09bsZ-B_mNY2RIo8FdCtMg
来源:DeepTech深科技