文章深入剖析了DeepSeek在大语言模型(LLM)领域的发展历程,详细回顾了其从2023年4月踏上AGI征程到2024年1月发布震撼世界的R1模型的647天。通过13篇论文的解读,展现了DeepSeek如何通过一系列坚实的技术突破和战略决策逐步构建起强大的技术壁垒,并最终实现登顶。
过完元宵节从老家回到深圳,我用三天时间,读完了Deepseek在LLM领域的13篇论文,从中发现了一些细节,分享给大家。首先,震惊世界的R1,不是一日铸就的,里面用到了很多过去项目中独创的技术突破。例如,他们当前所用的MoE框架,经历了四次升级。又比如GRPO,最初是在一个数学模型DeepSeek-Math-7B上首次提出的。当然,也有一些技术选择或技术突破在后续工作中失败了或被放弃了,例如令牌丢弃策略和RMaxTS(蒙特卡洛树变体)。
DeepSeek的技术创新之路
所有13篇论文组成了我眼中的“登神长阶”,每个台阶都是极其坚固和富有创意的。我相信这条登神之路,远远未到终点。从论文的非技术部分,我还发现了一些有趣的地方,可以用来佐证外界所传言的DeepSeek独特公司文化。接下来,我将按时间线组织内容,以论文为核心主线,但也会少量穿插一些重要事件。
DeepSeek的起点与筹备
2023年4月14日,DeepSeek前身幻方量化在公众号发布文章《幻方新征程》,宣布将以研究组织的形式投入AGI征程。文章阅读量8387,剔除其过去旧用户日均的3000阅读,可以说除了AI核心圈的人士,几乎无人知晓。这一天离ChatGPT发布135天,离DeepSeek-R1发布647天。
2023年5月24日,梁文峰接受暗涌采访,标志着DeepSeek的筹备接近完成,梁文峰开始认真招人了。2023年7月17日,DeepSeek注册成立,全称杭州深度求索人工智能基础技术研究有限公司。
技术突破与模型迭代
2023年10月25日,DeepSeek发布第一篇论文《DreamCraft3D》,支持从图像生成3D模型。2023年11月2日,DeepSeek发布《Coder-V1》,尝试在储存库级别组织预训练数据。2023年11月29日,DeepSeek发布第一个通用大模型DeepSeek-67B。
2024年1月5日,DeepSeek发布论文《DeepSeek LLM Scaling》,亮点包括使用GQA取代传统的MHA,使用多步学习率调度器,重新定义了C=6ND公式等。2024年1月11日,DeepSeek发布MoE系列第一篇论文,提出了精细化专家分割和共享专家等创新。
进入数学与视觉领域
2024年2月5日,DeepSeek发布第4篇论文《DeepSeekMath》,首次提出了GRPO,用于替代PPO。2024年3月8日,DeepSeek发布视觉模型第一篇论文《DeepSeek-VL》,这是他们视觉模型系列的第一个版本。2024年5月6日,DeepSeek发布V2,性能上超过所有开源模型,并极度逼近闭源模型如GPT-4。
持续优化与发布R1
2024年12月13日,DeepSeek发布视觉模型第二篇论文《DeepSeek-VL2》,这是一个MoE架构的模型。2024年12月26日,DeepSeek发布V3,登神在即。2024年1月15日,DeepSeek APP上架,席卷全球应用商店榜单。2024年1月20日,DeepSeek-R1发布,当时的盛况令人难忘。
未来展望与有趣发现
到1月20日R1发布,是DeepSeek在这篇文章中登神长阶的结束,但绝不是他们证神之路的终点。新年祝福的阅读量从5K增长到10W,显示了DeepSeek的进步。梁文峰在公司主要参与了MoE论文和Coder系列论文,显示出他对这些领域的偏好。
技术的潜力还很大,DeepSeek做了非常多的技术创新,但受限于人力,他们仍然有很多地方没有探索到,或涉猎不深,这意味着技术仍然存在广阔的挖掘潜力和向上空间。中国可能发生一些好的变化,如DeepSeek这样的团队很少,但也可能再出现第二个,第三个。
总结
总结起来就两句话:看多中国,看多AI。对了,其实有个有趣的彩蛋,每篇论文结束部分的“Conclusion, Limitation, and Future Work”展示了DeepSeek对未来的工作规划,值得一看。