梁文锋与杨植麟团队突破算法优化,革新长文本处理机制
近日,DeepSeek创始人梁文锋和月之暗面创始人杨植麟分别发布了关于长文本处理算法优化的最新研究成果,挑战现有大型语言模型的核心机制。两篇论文几乎同时发布,均聚焦于如何提高长文本处理效率。
北京时间2月18日,DeepSeek在其社交平台上发布了一篇关于原生稀疏注意力(Native Sparse Attention, NSA)的技术论文。该技术针对长文本训练与推理设计,利用动态分层稀疏策略,显著提升了传统AI模型的表现,特别是在长上下文推理方面。通过这一技术,DeepSeek将大语言模型处理64k长文本的速度最高提升了11.6倍,并在通用基准测试中超越了传统的全注意力模型。
NSA机制解析
NSA机制旨在通过算法优化提升长文本处理效率。与传统全注意力机制不同,NSA不会关注每个单词,而是通过只关注重要单词来提升效率。具体而言,NSA引入了三种核心技术:
首先是压缩,即将单词分组为“块”,并为每个块创建摘要;其次是选择,即从文本中挑选出最重要的单词;最后是滑动窗口,即在总结和选择单词的同时,依然查看附近的单词以确保不会遗漏重要细节。这种策略使得NSA不仅速度快,而且理解文本含义的能力与传统方法相当甚至更好。
杨植麟团队的MoBA方法
与此同时,月之暗面创始人杨植麟也发布了最新的研究成果——块注意力混合(Mixture of Block Attention, MoBA)。MoBA方法并未完全脱离现有的全注意力机制,而是设计了一套可以自由切换的方式,使模型能够在全注意力和稀疏注意力机制之间灵活转换,从而为现有全注意力模型提供更多适配空间。MoBA的计算复杂度随着上下文长度增加而表现出明显优势,在1M token的测试中,MoBA比全注意力快了6.5倍;而在10M token时,提速达到16倍。此外,MoBA已经应用于Kimi产品中,用于处理用户的超长上下文需求。
技术背后的创新与意义
风投公司RAI Digital联合创始人萨义德·戈苏斯指出,NSA和MoBA代表了AI模型处理超长文本的新方法,相比传统方法更为快速和高效。这些新技术不仅在算法层面有所突破,还对现有计算机硬件进行了优化,使其能够更好地适配多种类型的计算卡,为未来的开源和广泛应用奠定了基础。正如网友所说,这些技术教会了AI“聪明的偷懒”,使长文本处理更加精准和高效。
未来展望
随着NSA和MoBA等新技术的应用,未来AI模型在处理长文本时将展现出更高的效率和准确性。这些技术的出现不仅推动了大语言模型的发展,也为更多应用场景提供了可能,如法律文件分析、科研文献解读等。DeepSeek和月之暗面的创新成果,无疑为AI领域带来了新的曙光。