Grok3 发布：全球最强推理大模型，支持 Deep Research 和语音交互

3.2K 0

Grok3，由马斯克旗下的 xAI 公司推出的新一代大型语言模型，已经在多个评测基准上超越现有模型，成为全球最强的推理大模型。Grok3 系列包括 Grok3 和 Grok3-mini 两个版本，均支持推理模式，能够处理更加复杂的任务。Grok3-mini 的 Reasoning 版本已经训练完成，而 Grok3 Reasoning 目前处于 beta 测试阶段。

Grok3 系列模型概述

Grok3 系列模型不仅具备强大的推理能力，还支持深度研究和语音交互功能。官方尚未公布具体参数，但已知该模型是在拥有 20 万张 GPU 的集群上训练而成。从构建 10 万张 GPU 集群所需的 192 天到扩展至 20 万张仅用 90 天的时间，可以看出基础设施建设的速度显著加快。尽管 DeepSeek 系列曾以较低成本实现高质量训练，但 Grok3 的成功再次证明了强大算力的重要性。

评测结果大幅领先 GPT-4

官方提供的评测结果显示，Grok3 系列在数学推理（AIME 2024）、科学事实（GPQA）及编程（LCB）等方面均取得了优异成绩。AIME 是一项面向中学生的高难度数学竞赛，Grok3 在此领域的表现尤为突出。GPQA 则用于评估模型在需要深度推理和专业知识的问题上的能力。LCB 测试则衡量了模型生成代码的能力。即使在非推理模式下，Grok3 依然表现出色，尤其是在数学评测中，Grok3-mini 的得分甚至超过了 6710 亿参数的 DeepSeek V3。

推理模式下的卓越表现

在推理模式下，Grok3 的表现更为惊人。Grok3-mini Reasoning 已经完成训练，而 Grok3 Reasoning 尽管仍在 beta 测试阶段，但也展示了强大的潜力。通过增加推理时间和生成更多的 tokens，Grok3 系列在多个评测基准上均超过了其他推理大模型。值得注意的是，Grok3 在 Chatbot Arena 的 Elo 评分系统中获得了超过 1400 分的成绩，成为迄今为止唯一达到这一分数的模型，显示了其在对话领域的顶尖实力。