最新研究显示,国产AI公司深度求索(DeepSeek)和月之暗面分别发布了关于稀疏注意力机制的创新成果,为长上下文大模型带来了显著的效率提升。2月18日,正值马斯克展示Grok 3大模型之际,DeepSeek和月之暗面的论文引起了广泛关注。
DeepSeek在其论文中提出了一种名为NSA(Natively Sparse Attention,原生稀疏注意力)的新方法。NSA通过采用动态分层稀疏策略,结合粗粒度标记压缩与细粒度标记选择,实现了高效的长上下文建模。NSA不仅提高了计算效率,还在长上下文任务和基于指令的推理中表现出色。实验结果显示,NSA在处理64k长度序列时,解码、前向传播和后向传播的速度显著优于全注意力机制。
NSA的技术特点与优势
NSA的主要创新点在于其算术强度平衡算法设计,该设计针对现代硬件进行了优化,实现了显著的加速效果。此外,NSA支持端到端训练,能够在不牺牲模型性能的前提下减少预训练计算。业内人士指出,NSA的推出解决了此前DeepSeek-R1在输入上下文能力方面的瓶颈,使得长上下文处理更加高效,尤其在复杂数学推导中表现优异。
MoBA:另一种稀疏注意力框架
与此同时,月之暗面团队提出了名为MoBA(MIXTURE OF BLOCK ATTENTION FOR LONG-CONTEXT LLMS)的稀疏注意力框架。MoBA借鉴了混合专家(MoE)原理,将上下文划分为“块”,并通过top-k门控机制让每个查询token关注最相关的“块”。这种设计使得MoBA在处理长文本时效率大幅提升,特别是在处理1M和10M长文本时,速度分别提升了6.5倍和16倍。MoBA还具备与全注意力模式无缝切换的能力,进一步增强了其灵活性。
稀疏注意力机制的意义
Transformer架构虽然推动了大模型的发展,但其注意力机制在处理长文本时面临计算复杂度呈平方级增长的问题。NSA和MoBA的出现,为解决这一难题提供了新的思路。这两种稀疏注意力机制不仅提高了长文本处理效率,还减少了所需的算力资源。与马斯克的“大力出奇迹”思路不同,梁文锋和杨植麟的研究更注重在有限算力下实现更高的计算效果。
行业影响与未来展望
DeepSeek自推出大模型DeepSeek-R1以来,迅速获得了市场的认可。根据QuestMobile数据,DeepSeek的日活跃用户数在短时间内突破了3000万大关,成为最快达成这一里程碑的应用之一。开源已经成为大模型行业的主流趋势,DeepSeek、阶跃星辰和吉利汽车等公司相继开源其模型,推动了技术的普及与发展。未来,随着稀疏注意力机制的不断演进,大模型在长上下文处理领域的应用前景将更加广阔。