DeepSeek 647天打造AGI之路：技术创新与战略决策的深度解析

这篇文章深入剖析了DeepSeek在大语言模型（LLM）领域的发展历程，详细回顾了其从2023年4月踏上AGI征程到2024年1月发布震撼世界的R1模型的647天。文章以时间为线索，梳理了DeepSeek在技术创新、模型迭代与公司文化等方面的诸多细节，展现了其如何通过一系列坚实的技术突破和战略决策逐步构建起强大的技术壁垒，并最终实现登顶。

技术突破与模型迭代

DeepSeek的R1模型并非一蹴而就，其中用到了许多过去项目中的独创技术突破。这些技术在逐步验证后，反复迭代升级，最终成为了R1的牢固基石。例如，他们当前所用的MoE框架经历了四次升级。另一个例子是GRPO，最初是在一个数学模型DeepSeek-Math-7B上首次提出的。当然，也有一些技术选择或技术突破在后续工作中失败或被放弃，例如令牌丢弃策略和他们提出的RMaxTS（蒙特卡洛树变体）。

公司文化的独特之处

从论文的非技术部分还可以发现一些有趣的地方，可以佐证外界所传言的DeepSeek独特公司文化。例如，梁文峰在接受采访时提到：“我们希望更多人，哪怕是一个小app，也可以低成本地使用大模型，而不是技术只掌握在少数人和公司手中。”这表明DeepSeek致力于打破技术垄断，让更多人受益。

647天的关键时刻

2023年4月14日，DeepSeek的前身幻方量化在公众号发布文章《幻方新征程》，宣布将以研究组织的形式投入AGI征程。这篇文章的阅读量达到8387次，剔除旧用户的日常阅读量后，可以看出外界对DeepSeek的关注度逐渐增加。同年5月24日，梁文峰接受暗涌采访，正式宣告DeepSeek的筹备接近完成，开始积极招募人才。

技术发展的里程碑

2023年10月25日，DeepSeek发布了第一篇论文《DreamCraft3D: Hierarchical 3D Generation with Bootstrapped Diffusion Prior》，支持从图像生成3D模型。这是DeepSeek在图像生成领域的一次重要尝试。同年11月2日，DeepSeek发布了《Coder-V1》论文，尝试在储存库级别组织预训练数据，使大模型能够更好地理解代码之间的组织关系。

MoE框架的演进

2024年1月11日，DeepSeek发布了MoE系列的第一篇论文，提出了精细化专家分割和共享专家的概念，进一步提高了模型的专业化程度。然而，MoE架构面临训练失衡和设备间通信问题。为此，DeepSeek引入了专家因子、设备因子和通信因子，以确保训练的平衡性和高效性。

数学领域的突破

2024年2月5日，DeepSeek发布了第4篇论文《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》，首次提出了GRPO（组相对策略优化）以替代PPO。GRPO简化了模型训练过程，降低了成本，并且显著提升了训练效率。此外，DeepSeek还发现在线强化学习比离线采样效果更好，为此在后续工作中实现了在线强化学习框架。

视觉模型的进展

2024年3月8日，DeepSeek发布了视觉模型系列的第一篇论文《DeepSeek-VL: Towards Real-World Vision-Language Understanding》。尽管视觉模型系列与V3、R1关联不大，但它展示了DeepSeek在多模态理解方面的努力。同年12月13日，DeepSeek发布了视觉模型的第二篇论文《DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding》，进一步推动了视觉模型的发展。

V2和V3的发布

2024年5月6日，DeepSeek发布了DeepSeek-V2-236B，性能上超越所有开源模型，并逼近闭源模型如GPT-4。V2引入了MLA（Multi-head Latent Attention）取代GQA，进一步提高了模型性能。同年12月26日，DeepSeek发布了DeepSeek-V3-671B，集成了最新的MoE方案、GRPO、MLA等技术，极大地提升了模型性能并降低了成本。

R1的发布与影响

2024年1月20日，DeepSeek发布了R1模型，引发了全球范围内的广泛关注。R1不仅在技术上实现了重大突破，还在成本控制方面表现出色。R1-Zero完全通过强化学习实现模型的能力挖掘，尤其是在推理任务领域进行了优化学习。此外，DeepSeek还公开了R1的训练流程，展示了其在技术创新和开放合作方面的决心。