Grok 3 实测:马斯克的“最强AI”究竟有多厉害?
每经记者测试了马斯克旗下xAI公司发布的最新AI模型Grok 3,这款被马斯克称为“地球上最聪明的人工智能”的模型,究竟表现如何?根据官方测试结果,Grok 3在多个基准测试中表现出色,但在实际用户体验中,情况似乎有所不同。
根据官方数据,Grok 3在AIME和GPQA等基准测试中超越了GPT-4o、Gemini-2Pro、DeepSeek V3等知名模型。在Chatbot Arena平台上,Grok 3的早期版本获得了140分,领先于其他竞争对手。然而,一些用户对Grok 3的实际能力提出了质疑,认为它并未如马斯克所宣称的那样强大。
基础数学测试:Grok 3 表现稳定
为了验证Grok 3的能力,《每日经济新闻》记者进行了多项测试。首先,从简单的数学问题开始,例如比较9.9和9.11的大小。Grok 3轻松应对了这个基础问题,展示了其在基本运算上的稳定性。接下来,记者测试了更复杂的数学问题,如三个人打台球的局数问题。Grok 3不仅给出了正确答案,而且仅用1分15秒就完成了计算,远快于其他模型。
逻辑推理能力:Grok 3 尚有不足
马斯克特别强调了Grok 3在逻辑推理方面的改进,声称它可以通过回溯和简化步骤来解决问题。然而,在实际测试中,Grok 3的表现并不如预期。例如,在一个涉及实验室动物飞行的逻辑推理题中,Grok 3未能给出完全正确的答案,尽管它考虑到了部分可能性。相比之下,DeepSeek的R1模型表现更好,成功解答了这一问题。这表明Grok 3在逻辑推理方面仍有提升空间。
编程能力:Grok 3 略胜一筹
在编程能力方面,Grok 3的表现相对较好。记者借用了一位开发者对火星发射计划的代码模拟测试,结果显示Grok 3在轨道计算上表现出色,尽管最终的动画效果未能完全复现马斯克在发布会上展示的效果。总体而言,Grok 3在编程任务中的综合得分略高于OpenAI的o1,但两者之间的差距并不明显。
速度优势:Grok 3 的最大亮点
尽管Grok 3在某些测试中并未大幅领先其他模型,但它在响应速度上表现出色。无论是在基础数学问题还是复杂编程任务中,Grok 3都能迅速给出答案,这可能是其最大的优势之一。尤其是在数学问题的快速求解上,Grok 3明显优于其他同级别模型。
结论:Grok 3 是顶尖模型,但并非绝对领先
综合所有测试结果,Grok 3无疑是当前世界顶尖的AI模型之一,尤其在响应速度方面表现突出。然而,它并未如马斯克所宣称的那样遥遥领先其他竞争对手。特别是在逻辑推理和编程能力方面,Grok 3的表现虽有亮点,但也存在不足。因此,称其为“地球上最聪明的人工智能”可能还需要更多证据支持。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...