DeepSeek 推出新型注意力机制 NSA,大幅提升长文本推理速度

AI头条2天前发布 TextTitan
4.1K 0

最新研究论文由梁文锋领衔的 DeepSeek 团队发布,推出了一种全新的注意力机制——NSA(Native Sparse Attention),在长上下文训练与推理方面实现了显著的速度提升。该机制引入了动态分层稀疏策略、粗粒度 token 压缩和细粒度 token 选择三大核心技术,从而有效降低了预训练成本,同时在解码阶段实现了高达 11.6 倍的速度提升。

NSA 的核心特点与优势

NSA 的创新之处在于其与硬件的高度兼容性,确保了高效的计算性能。具体而言,NSA 通过动态分层稀疏策略,结合粗粒度的 token 压缩和细粒度的 token 选择,实现了全局上下文感知能力和局部精确性的最佳平衡。这种设计不仅提高了推理效率,还减少了预训练计算量,同时保持了模型性能。

此外,NSA 还通过 Triton 开发了高度兼容硬件的稀疏注意力内核。优化策略包括组内数据加载、共享 KV 加载和网格循环调度,确保了计算强度的最优平衡,进一步提升了计算速度。

NSA 性能评估与优势验证

在对 NSA 进行技术评估时,研究人员从通用基准性能、长文本基准性能和思维链推理性能三个角度进行了详细对比。结果显示,NSA 的预训练损失曲线更加稳定和平滑,始终优于全注意力模型。特别是在 64k 上下文的“大海捞针”测试中,NSA 展现了极高的检索精度,证明了其在处理长上下文任务中的卓越能力。

在 LongBench 基准测试中,NSA 以最高平均分 0.469 超越了其他所有基准。在思维链推理性能评估中,NSA-R 模型在 8k 和 16k 上下文设置下的准确率均超过了全注意力基准模型,分别高出 0.075 和 0.054。

NSA 对复杂数学问题的处理能力

值得注意的是,NSA 成功解决了复杂数学问题,验证了清华大学姚班早期论文中的结论。在处理四位数乘法时,NSA 将所需的 tokens 数量减少至 2275,成功得出正确答案,而基线方法则消耗了 9392 个 tokens 并得出错误答案。这表明 NSA 在效率和准确性上具有显著优势。

清华大学姚班的论文指出,Transformer 架构在处理四位数乘法时准确率骤降至 4%,揭示了其在复杂推理任务中的局限性。相比之下,NSA 通过优化问题理解和答案生成,显著提升了处理复杂数学问题的能力。

未来展望

DeepSeek 的研究未来将更加专注于优化模型在长文本和代码库分析中的表现,以进一步提升其推理能力和实用性。这一进展标志着大模型发展的一个重要里程碑,也为未来的 AI 技术创新提供了新的思路和方向。

© 版权声明

相关文章