解读MoBA与NSA:两大稀疏注意力框架的较量与创新
2025年2月19日,DeepSeek发布了最新的稀疏注意力框架NSA论文,仅仅五小时后,月之暗面团队紧随其后推出了类似主题的MoBA论文。两篇论文均聚焦于提高长文本处理效率,特别是在处理超长序列任务时的性能优化。MoBA框架的最大上下文长度可达10M,而NSA则为64k。值得注意的是,这两篇论文的共同作者分别是DeepSeek的创始人梁文锋和月之暗面的联合创始人杨植麟及周昕宇。
MoBA框架的独特优势
MoBA架构通过动态选择历史片段(块)来提升Transformer模型处理长序列的效率。其设计灵感来源于混合专家(MoE)和稀疏注意力技术,创新性地将MoE原则应用于注意力机制本身。MoBA将长序列分割成多个固定大小的块,并通过门控机制动态选择与每个查询token最相关的块,从而实现稀疏注意力。这种方式不仅减少了计算量,还能让模型高效处理长序列,同时保持了与全注意力机制相当的效果。
MoBA与全注意力机制的对比
月之暗面团队通过一系列实验验证了MoBA的关键设计选择。实验结果显示,MoBA的验证损失曲线与全注意力机制非常相似,二者之间的验证损失差异始终保持在1e-3的范围内。即使在处理长达100万tokens的序列时,MoBA的速度比全注意力快6.5倍;在扩展到1000万tokens时,MoBA的计算时间更是实现了16倍的加速比。这些数据表明,MoBA在处理极长序列时具有显著的计算效率优势。
MoBA在长上下文任务中的表现
在多个长上下文基准测试中,MoBA的表现与全注意力模型相当,特别是在RULER基准测试中,MoBA的稀疏度高达62.5%,但性能与全注意力模型几乎匹配,甚至在某些测验中表现更好。此外,MoBA在“大海捞针”测试中也取得了令人满意的成绩,展示了其在长上下文理解任务中的强大能力。
Kimi Latest模型的发布
除了MoBA论文,月之暗面还发布了一款名为Kimi Latest的新模型。这款模型旨在弥合Kimi智能助手和开放平台之间的差异,使开放平台用户也能体验到最新的模型效果。Kimi Latest支持自动上下文缓存,缓存命中的Tokens费用为1元/百万tokens。该模型具备五大特点:使用最新的大模型、支持图片理解、自动选择上下文长度、支持自动上下文缓存以及其他功能与moonshot-v1系列模型一致。
国产开源AI竞赛的升级
在DeepSeek以现象级开源姿态引爆行业后,国内大模型赛道掀起了一场开源军备竞赛。厂商们不仅争相开源自家模型,还将内部技术成果以论文形式推向开发者社区。尽管月之暗面在这一竞争中面临诸多挑战,如发布新模型和稀疏注意力机制时撞上了其他公司的高关注度发布,但其创新和技术实力依然不容忽视。未来,这场竞赛将继续推动国产AI技术的发展和进步。
© 版权声明
文章版权归作者所有,未经允许请勿转载。