Grok 3 实测：马斯克的“最强AI”究竟有多厉害？

AI资讯2个月前发布 InkWhisperer

3.2K 0

每经记者测试了马斯克旗下xAI公司发布的最新AI模型Grok 3，这款被马斯克称为“地球上最聪明的人工智能”的模型，究竟表现如何？根据官方测试结果，Grok 3在多个基准测试中表现出色，但在实际用户体验中，情况似乎有所不同。

根据官方数据，Grok 3在AIME和GPQA等基准测试中超越了GPT-4o、Gemini-2Pro、DeepSeek V3等知名模型。在Chatbot Arena平台上，Grok 3的早期版本获得了140分，领先于其他竞争对手。然而，一些用户对Grok 3的实际能力提出了质疑，认为它并未如马斯克所宣称的那样强大。

基础数学测试：Grok 3 表现稳定

为了验证Grok 3的能力，《每日经济新闻》记者进行了多项测试。首先，从简单的数学问题开始，例如比较9.9和9.11的大小。Grok 3轻松应对了这个基础问题，展示了其在基本运算上的稳定性。接下来，记者测试了更复杂的数学问题，如三个人打台球的局数问题。Grok 3不仅给出了正确答案，而且仅用1分15秒就完成了计算，远快于其他模型。

逻辑推理能力：Grok 3 尚有不足

马斯克特别强调了Grok 3在逻辑推理方面的改进，声称它可以通过回溯和简化步骤来解决问题。然而，在实际测试中，Grok 3的表现并不如预期。例如，在一个涉及实验室动物飞行的逻辑推理题中，Grok 3未能给出完全正确的答案，尽管它考虑到了部分可能性。相比之下，DeepSeek的R1模型表现更好，成功解答了这一问题。这表明Grok 3在逻辑推理方面仍有提升空间。

编程能力：Grok 3 略胜一筹

在编程能力方面，Grok 3的表现相对较好。记者借用了一位开发者对火星发射计划的代码模拟测试，结果显示Grok 3在轨道计算上表现出色，尽管最终的动画效果未能完全复现马斯克在发布会上展示的效果。总体而言，Grok 3在编程任务中的综合得分略高于OpenAI的o1，但两者之间的差距并不明显。

速度优势：Grok 3 的最大亮点

尽管Grok 3在某些测试中并未大幅领先其他模型，但它在响应速度上表现出色。无论是在基础数学问题还是复杂编程任务中，Grok 3都能迅速给出答案，这可能是其最大的优势之一。尤其是在数学问题的快速求解上，Grok 3明显优于其他同级别模型。

结论：Grok 3 是顶尖模型，但并非绝对领先

综合所有测试结果，Grok 3无疑是当前世界顶尖的AI模型之一，尤其在响应速度方面表现突出。然而，它并未如马斯克所宣称的那样遥遥领先其他竞争对手。特别是在逻辑推理和编程能力方面，Grok 3的表现虽有亮点，但也存在不足。因此，称其为“地球上最聪明的人工智能”可能还需要更多证据支持。

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

最新科技与商业动态：从AI大模型到载人航天

最新科技与商业动态：从AI大模型到载人航天

2个月前

02K3.2K

中国年轻人偶像崇拜趋势：从马斯克到本土企业家

中国年轻人偶像崇拜趋势：从马斯克到本土企业家

2个月前

08.1K7K

Kimi开放平台推出新举措：降低模型推理及缓存成本

新Kimi开放平台推出新举措：降低模型推理及缓存成本

15小时前

07K2.6K

中国首个AI原生IDE Trae：开启高效编程新时代

中国首个AI原生IDE Trae：开启高效编程新时代

2个月前

07.4K1.4K

暂无评论

none

暂无评论...