Thinking Machines Lab 首篇长文揭秘 LLM 推理不确定性,批次不变性成关键突破口
发布时间:2025-09-182025 年 9 月 11 日,由 OpenAI 前 CTO Mira Murati 于今年 2 月创立的人工智能初创公司 Thinking Machines Lab,推出全新研究博客栏目 “Connectionism”,并发布首篇重磅文章《克服 LLM 推理中的不确定性》(Defeating Nondeterminism in LLM Inference),首次系统揭开大语言模型(LLM)推理不确定性的真相。
文章由 PyTorch 核心开发者、今年 3 月从 Meta 加盟该实验室的 Horace He 主导撰写。研究指出,此前学界普遍认为的 “并发 + 浮点” 假设并非 LLM 推理不确定性的根本原因,真正元凶是缺乏批次不变性—— 即相同请求的输出会因推理时 batch size(批次大小)变化而改变,而 batch size 又受服务器负载影响,导致用户视角下结果不确定。
研究团队进一步提出解决方案:通过确保 RMSNorm、矩阵乘法、注意力机制三大核心模块的批次不变性,可实现 LLM 推理的完全确定性。实验显示,使用 Qwen3-235B 模型在温度为 0 的设置下,未启用批次不变性核函数时,1000 次采样出现 80 种不同结果;启用后,1000 次结果完全一致。同时,在 Qwen-3-8B 模型测试中,优化后的确定性推理性能虽较 vLLM 默认模式有一定下降,但仍处于可用范围。
该研究不仅为 LLM 推理确定性提供可靠解决思路,更对强化学习等领域意义重大,可实现 “真正的在策略强化学习”,为 AI 技术的可信赖发展奠定基础。相关 “批次不变性” 核函数库及确定性 vLLM 示例已开源。
来源链接:https://mp.weixin.qq.com/s/Xv32OYDaH0aN2_LWLP9A-Q
论文链接:https://thinkingmachines.ai/blog/defeating-nondeterminism-in-llm-inference/
来源:机器之心