DeepSeek开源周首日发布FlashMLA,将英伟达H800 GPU性能发挥到极致
发布时间:2025-02-242月24日上午,DeepSeek 正式开启 “开源周”,在 GitHub 上发布开源项目 FlashMLA(Flash Multi-Layer Attention)。
FlashMLA是一款专为英伟达 Hopper 架构 GPU 设计的高效多层注意力解码内核,其核心目标是优化大模型的推理过程,尤其能在处理变长序列比如处理聊天对话和长文本生成时,显著提升吞吐量和响应速度。
其创新之处在于:1,支持 BF16 精度,在保留关键精度的同时减少一半存储空间,适合高吞吐量的实时生成任务;2,采用分页 KV 缓存(块大小 64),通过将键值对划分为固定大小的块,实现按需动态分配,从而减少显存浪费,高效处理变长序列;3,受 LoRA 和 Stable Diffusion 的启发,运用低秩联合压缩技术,在不损失性能的前提下,将 KV 缓存体积压缩至原来的 1/4,从而大幅降低显存需求,减少冗余计算。
FlashMLA 不仅适配英伟达 H800,其分页缓存机制还有助于国产芯片克服显存管理效率低的短板,推动端侧 AI 应用普及。随着该项目开源,企业可直接利用 FlashMLA 优化自家模型,AI 推理有望进入“千元级硬件跑百亿模型” 的新阶段。
https://mp.weixin.qq.com/s/7KFEuRydof-LBM0_Cm9k-Q
来源:DeepTech深科技