DeepSeek NSA注意力机制革新:大幅降低大模型计算成本

AI头条5天前发布 WriteRanger
5.4K 0

新提出的NSA(Native Sparse Attention)注意力机制再次引发了广泛关注。这项由梁文锋及其团队提交的技术预印本,旨在解决大模型上下文建模过程中高昂的计算成本问题。研究显示,传统基于softmax架构的注意力计算在处理64k上下文时,占据了总延迟的70%-80%,而NSA不仅保持了性能不变,还在解码、前向传播和反向传播中实现了显著加速。

具体而言,NSA能够将前向传播的速度提升至最高9倍,反向传播速度最高提升6倍,解码速度更是达到了11.6倍的提升。这一成果意味着,DeepSeek找到了一种优化注意力机制的方法,可以在更少的算力条件下更高效地训练大型语言模型。

NSA的核心技术特点

NSA的核心方法包括动态分层稀疏策略、粗粒度Token压缩以及细粒度Token选择。这些技术共同作用,使得模型能够在处理长序列数据时既高效又精准。通过采用更紧凑的键值对替代原始注意力中的键值对,NSA利用压缩、选择和滑动窗口三种映射策略来优化注意力输出,从而维持较高的稀疏率。

硬件对齐与训练感知设计

为了确保NSA的有效实施,DeepSeek还特别强调了两个关键技术环节:硬件对齐系统和训练感知设计。前者针对张量核心利用率及内存访问进行了优化,以保证块级稀疏注意力的高效运行;后者则通过引入高效的算法和向后运算符,实现了稳定的端到端训练过程。

实验结果验证

研究人员使用了一个拥有27B参数规模的模型进行了实验,结果显示,无论是预训练损失还是多个通用基准测试中的表现,NSA模型均优于传统的全注意力模型。特别是在涉及复杂长上下文推理的任务中,NSA展现出了超越基线模型的能力,特别是在AIME任务中,NSA-R在8k和16k上下文设置下的得分均超过了全注意力模型。

未来展望

随着NSA技术的应用,我们或许可以看到一条通向AGI的新路径——这条路径不仅更加高效,而且更具普及性。通过减少对昂贵硬件资源的依赖,更多研究者和个人开发者将有机会参与到这一领域的探索中来。

© 版权声明

相关文章