DeepSeek 创始人梁文锋的技术创新之路:NSA 注意力机制的突破

AI资讯1周前发布 Wiziz
4.5K 0

发论文亲自上?创业十多年,DeepSeek 梁文锋的“技术男”特质始终未变。2月18日,DeepSeek 发布了一篇新论文,提出了一种名为 NSA 的新型注意力机制。值得一提的是,创始人梁文锋不仅参与编写,还亲自上传了该论文。根据论文介绍,DeepSeek 团队结合了算法创新与硬件优化,实现了超快速长文本训练。NSA 采用动态分层稀疏策略,将粗粒度的标记压缩与细粒度的标记选择相结合,确保全局上下文感知和局部精度。NSA 经过优化设计,可以在不牺牲性能的情况下加速推理并降低预训练成本。在多种基准测试中,NSA 的表现甚至超过了全注意力模型。

梁文锋的技术背景与创业历程

梁文锋17岁考入浙江大学电子信息工程专业,2010年获得硕士学位,师从项志宇,专注于机器视觉研究。2009年,梁文锋以实习生身份加入上海艾麒信息,凭借技术和热情脱颖而出,成为部门经理。他参与了多项关键技术的研发,特别是在视频编解码和GPU处理方面。2010年毕业后,梁文锋继续从事量化投资研究,并于2013年与校友徐进共同创立了杭州雅克比投资管理有限公司。随后,两人又成立了浙江九章资产管理有限公司,推动了幻方量化的快速发展。

量化投资的成功与 AI 算力集群的建设

梁文锋在量化投资领域的成功离不开他对技术的执着追求。2016年,幻方量化推出了首个由深度学习生成的交易模型,标志着投资策略的全面AI化。面对算力短缺,幻方量化果断投资2亿元建设“萤火一号”AI算力集群,并在2021年进一步投入10亿元建成“萤火二号”,为DeepSeek的研发奠定了坚实基础。梁文锋表示,这些投资主要源于对AI能力边界的好奇心驱使。

管理风格与团队建设

梁文锋的管理风格一直秉承扁平化原则,给予团队成员充分的自由和信任。无论是艾麒时期还是DeepSeek,他都强调开放协作的文化,鼓励员工自主决策。DeepSeek的团队成员大多是数学竞赛获奖者和算法高手,梁文锋更看重的是他们的热爱和扎实的基础能力。DeepSeek的独特招聘风格吸引了大量顶尖人才,面试过程长达3小时,注重考察候选人的思维方式和项目完成的质量。

创始人模式与未来发展

梁文锋的“创始人模式”得到了广泛认可,他不仅亲自参与代码编写,还直接与实习生沟通。这种管理模式有助于快速解决问题,提高资源配置效率。然而,随着公司规模的扩大,梁文锋是否会继续保持这种深入一线的管理方式,仍需时间验证。DeepSeek的成功不仅仅在于技术创新,更在于其独特的文化和管理理念,为技术驱动型企业提供了宝贵的经验。

总结

梁文锋作为DeepSeek的创始人,以其深厚的技术背景和独特的管理风格,带领公司在AI领域取得了显著成就。NSA注意力机制的推出,再次证明了他在技术创新方面的卓越能力。未来,DeepSeek将继续探索AI的无限可能,为行业带来更多惊喜。

© 版权声明

相关文章