DeepSeek 真相揭秘:五大谣言与事实解析

AI头条3周前发布 Wiziz
8.4K 0

DeepSeek 推出以来,围绕这家中国 AI 公司的谣言层出不穷。为了澄清事实,前 Stability AI 研究主管 Tanishq Mathew Abraham 发表了一篇深度分析文章,揭示了关于 DeepSeek 的五大谣言及其背后的真相。

DeepSeek 的崛起并非偶然。早在 2023 年 11 月,该公司就发布了首个开源模型 DeepSeek-Coder,迅速成为业界领先的代码生成语言模型。此后,DeepSeek 不断推出创新成果,最终在 2025 年 1 月正式发布了 R1 模型。这些进展表明,DeepSeek 的成功并非一蹴而就,而是经过长期积累和技术沉淀的结果。

谣言 1:DeepSeek 是突然冒出来的公司

事实上,到 2025 年 1 月,几乎所有生成式 AI 研究人员都已经听说过 DeepSeek。DeepSeek 在正式发布 R1 前几个月就已提供了预览版本,展示了其技术和产品的成熟度。谣言的传播者往往不了解 AI 行业的实际情况,夸大了 DeepSeek 的“神秘性”。DeepSeek 的持续创新和高效团队使其在过去一年中取得了显著进步,这是完全合理的。

谣言 2:DeepSeek 的模型训练成本不是 600 万美元

关于 DeepSeek 模型训练成本的争议主要集中在 600 万美元这个数字上。DeepSeek-V3 论文提到的 550 万美元成本,主要是基于 GPU 成本、数据集大小和模型参数的估算。DeepSeek-R1 是在 DeepSeek-V3 的基础上进行了一些强化学习训练,这部分额外成本大约为几十万美元。此外,DeepSeek 的 2048 个 H800 GPU 集群的实际成本可能更低,因为批量购买通常会有折扣。值得注意的是,除了训练成本外,DeepSeek 还有其他运营成本,如研究人员的高薪,这进一步证明了其成本的合理性。

谣言 3:DeepSeek 使美国 AGI 公司浪费资源,看跌英伟达

有人认为,DeepSeek 的高效训练方法意味着美国 AGI 公司在浪费资源,并质疑英伟达的市场地位。这种观点忽视了 scaling laws 的重要性。scaling laws 表明,增加计算资源可以带来更好的模型性能。虽然 DeepSeek 确实提高了训练效率,但这并不意味着更多的计算资源是不必要的。实际上,许多 AGI 公司仍然相信,通过不断投入更多计算资源,可以加速实现 AGI 和 ASI。因此,DeepSeek 的成功并不会动摇英伟达在 AI 加速芯片领域的主导地位。

谣言 4:DeepSeek 没有做出任何有意义的创新

DeepSeek 在语言模型的设计和训练方法上确实有许多创新。例如,他们开发了多头潜注意力(MLA)机制,这是一种更节省内存且性能更好的 Transformer 变体。此外,DeepSeek 提出了 GRPO 与可验证奖励的强化学习管道,简化了训练过程并提升了模型性能。他们还设计了 DualPipe 方法,优化了多 GPU 训练的效率。这些创新不仅提高了 DeepSeek 模型的性能,也为整个 AI 社区提供了宝贵的参考。

谣言 5:DeepSeek 正在“汲取”ChatGPT 的知识

关于 DeepSeek 是否使用了 ChatGPT 的知识进行训练,存在一些误解。虽然有人声称 DeepSeek 使用了蒸馏技术,但这种说法缺乏证据支持。即使 DeepSeek 确实使用了 ChatGPT 生成的数据进行训练,这也并不违反服务条款,前提是这些数据来自公开数据集。DeepSeek 的成功更多依赖于其自身的工程、效率和架构创新,而不是简单地“汲取”其他模型的知识。因此,DeepSeek 的成就不容忽视。

总之,DeepSeek 的崛起反映了中国在人工智能领域的强大竞争力。尽管存在一些争议和谣言,但 DeepSeek 的技术和创新值得肯定。未来,中美两国在 AI 领域的竞争将继续升温,双方都将投入更多资源,推动 AI 技术的发展。

© 版权声明

相关文章