撞车DeepSeek NSA,月之暗面发布新注意力架构 MoBA,性能与效率双优

发布时间:2025-02-21

机器之心2月19日消息,在2月18日DeepSeek 发布新注意力机制 NSA 的当天,月之暗面也推出名为 MoBA(块注意力混合)的注意力机制,旨在提高模型处理长序列任务的效率和性能,相关代码已公开。

MoBA 基于混合专家(MoE)原理,将其创新性应用于注意力机制,遵循“更少结构”原则,让模型自主决定关注位置。它通过可训练的块稀疏注意力、无参数门控机制、完全注意力与稀疏注意力的无缝切换,有效降低计算成本,提升处理长序列的效率和性能。

月之暗面进行了多项实验。在与 Full Attention 的对比实验中,MoBA 虽稀疏度高达 75%,但扩展性能与之相当,且具有长上下文可扩展性。消融实验验证了细粒度块分割对提升性能的作用。将 MoBA 与 Full Attention 融合的实验表明,混合训练方案能平衡训练效率和模型性能。

研究团队基于 Llama 3.1 8B 开发了 Llama-8B1M-MoBA 模型,采用 MoBA 后,在多个评估基准测试中与 Full Attention 模型性能相当,在处理超长文本时,效率提升显著,处理 1M token 时比 Full Attention 模型快 6.5 倍 。MoBA 为大语言模型的发展提供了新的有力支持。

论文标题:MoBA: Mixture of Block Attention for Long-Context LLMs

论文地址:https://github.com/MoonshotAI/MoBA/blob/master/MoBA_Tech_Report.pdf

项目地址:https://github.com/MoonshotAI/MoBA

参考链接:https://mp.weixin.qq.com/s/okrYBqSRxUrXQiHjo-nlYA

来源:机器之心