马斯克Grok3 vs 梁文锋DeepSeek:中美AI大模型的不同路径

AI资讯7天前发布 EchoEcho
7.6K 0

2月18日,埃隆·马斯克发布了号称“地球上最聪明AI”的Grok3大模型,展示了其在多项测评中超越其他模型的技术实力。与此同时,梁文锋和杨植麟分别发布了与提高训练效率相关的论文。这些事件反映了中美AI大模型在发展路径上的根本差异。

Grok3:强大的算力支持与闭源策略

马斯克的Grok3大模型采用了20万张英伟达H100芯片进行训练,展示了“火力覆盖”的美式发展路径。Grok3在大模型权威盲测榜单“Chatbot Arena”中得分超过1400,刷新了榜单记录。然而,尽管马斯克宣称未来Grok3将开源,目前该模型仍然是闭源的。此外,马斯克在发布会中透露,Grok3的计算量是前代Grok2的10到15倍,这表明其庞大的参数规模和训练数据量。

DeepSeek:聚焦降本增效与开源共享

与马斯克不同,梁文锋及其团队继续专注于降低训练成本,追求极致效率。DeepSeek在社交平台上介绍了一种名为NSA(Native Sparse Attention)的新机制,该机制通过“压缩”“选择”“滑动”的方式处理输入序列,减少了计算量,提高了训练和推理速度。此外,梁文锋和杨植麟还发布了另一篇论文,介绍了MoBA机制,该机制通过将长文本分割为多个固定大小的“块”,提高了计算效率。

中美AI发展的不同侧重点

马斯克的Grok3依赖于巨大的算力投入,体现了“越大性能越好”的尺度定律。相比之下,DeepSeek则致力于通过技术创新降低成本,使AI更加普及。DeepSeek的开源策略使其技术能够被全球开发者利用,推动了AI行业的快速发展。田丰指出,这种差异反映了中美AI企业在算力资源和性价比方面的不同考量。

市场反应与未来展望

Grok3的成功发布提振了市场对算力供应商的信心,英伟达的股价也随之回升。然而,DeepSeek的开源模式也对美国大模型发展产生了影响,xAI宣布将免费提供Grok3服务,直至服务器崩溃。Grok3在回答与DeepSeek的对比时表示,尽管其训练成本较高,但也承认DeepSeek在成本效率和开放性上的优势。

结论:两种路径的共存与竞争

无论是马斯克的“力大砖飞”策略,还是梁文锋的降本增效路线,中美AI大模型的发展路径各有千秋。未来,这两种路径将继续共存并相互竞争,共同推动AI技术的进步。AI的进步是全球共同努力的结果,中美两国在其中都发挥着不可或缺的作用。

© 版权声明

相关文章