DeepSeek 开源 FlashMLA:大幅提升 Hopper GPU 上大模型性能
2025年2月24日,DeepSeek正式启动“开源周”,首次开源其代码库FlashMLA。此内核针对Hopper GPU进行了深度优化,旨在高效处理可变长度序列任务。据官方介绍,在H800 GPU上,FlashMLA实现了惊人的3000 GB/s内存带宽和580 TFLOPS计算性能,现已投入实际应用。
FlashMLA 的核心技术优势
FlashMLA不仅提升了大语言模型在H800这类GPU上的运行速度与效率,还特别适用于需要即时反馈的任务,例如聊天机器人和自动文本生成。通过优化MLA(多层注意力机制),FlashMLA增强了Transformer模型处理长序列的能力。这种机制允许模型同时关注文本的不同部分,从而更好地理解复杂的语义结构。此外,MLA通过对KV缓存的有效压缩,减少了内存占用,进一步提高了系统的整体性能。
FlashMLA 对行业的影响
DeepSeek表示,FlashMLA的作用如同为AI推理系统安装了一个“涡轮增压器”,使大型模型在执行复杂任务时更加迅速且节省资源。更重要的是,它有助于打破现有的算力垄断局面,推动AI技术的普及。FlashMLA通过优化内存管理和动态调度策略,充分利用了Hopper系列GPU的强大性能,使得企业在相同的硬件条件下能够完成更多的工作,有效降低了运营成本。
加速商业应用与技术创新
在实际应用场景中,如客户服务对话或文档自动生成,FlashMLA能够显著减少不必要的计算开销,提供更快速、流畅的服务体验,进而加快产品的市场推广速度。以往,高效的解码内核往往被少数几家大型科技公司所掌握,但现在随着FlashMLA的开源发布,广大的中小企业及研究人员也能享受到工业级别的优化成果,这无疑将激发更多领域的创新和发展。
未来展望
这次只是DeepSeek开源计划的一部分。早在2月21日,公司就预告接下来的一周内将陆续公开五个重要的代码库,承诺以最透明的方式分享他们的研发进展。作为一个致力于探索通用人工智能(AGI)的小型企业,DeepSeek坚信每一次代码共享都是对整个AI行业发展的重要贡献。他们强调,公司秉持着开放、协作的精神,鼓励社区成员积极参与到这场技术革命中来。