马斯克Grok3 vs 梁文锋DeepSeek：中美AI大模型的不同路径

8.1K 0

2月18日，埃隆·马斯克发布了号称“地球上最聪明AI”的Grok3大模型，展示了其在多项测评中超越其他模型的技术实力。与此同时，梁文锋和杨植麟分别发布了与提高训练效率相关的论文。这些事件反映了中美AI大模型在发展路径上的根本差异。

Grok3：强大的算力支持与闭源策略

马斯克的Grok3大模型采用了20万张英伟达H100芯片进行训练，展示了“火力覆盖”的美式发展路径。Grok3在大模型权威盲测榜单“Chatbot Arena”中得分超过1400，刷新了榜单记录。然而，尽管马斯克宣称未来Grok3将开源，目前该模型仍然是闭源的。此外，马斯克在发布会中透露，Grok3的计算量是前代Grok2的10到15倍，这表明其庞大的参数规模和训练数据量。

DeepSeek：聚焦降本增效与开源共享

与马斯克不同，梁文锋及其团队继续专注于降低训练成本，追求极致效率。DeepSeek在社交平台上介绍了一种名为NSA（Native Sparse Attention）的新机制，该机制通过“压缩”“选择”“滑动”的方式处理输入序列，减少了计算量，提高了训练和推理速度。此外，梁文锋和杨植麟还发布了另一篇论文，介绍了MoBA机制，该机制通过将长文本分割为多个固定大小的“块”，提高了计算效率。

中美AI发展的不同侧重点

马斯克的Grok3依赖于巨大的算力投入，体现了“越大性能越好”的尺度定律。相比之下，DeepSeek则致力于通过技术创新降低成本，使AI更加普及。DeepSeek的开源策略使其技术能够被全球开发者利用，推动了AI行业的快速发展。田丰指出，这种差异反映了中美AI企业在算力资源和性价比方面的不同考量。

市场反应与未来展望

Grok3的成功发布提振了市场对算力供应商的信心，英伟达的股价也随之回升。然而，DeepSeek的开源模式也对美国大模型发展产生了影响，xAI宣布将免费提供Grok3服务，直至服务器崩溃。Grok3在回答与DeepSeek的对比时表示，尽管其训练成本较高，但也承认DeepSeek在成本效率和开放性上的优势。