Grok3 发布:全球最强推理大模型,支持 Deep Research 和语音交互
Grok3,由马斯克旗下的 xAI 公司推出的新一代大型语言模型,已经在多个评测基准上超越现有模型,成为全球最强的推理大模型。Grok3 系列包括 Grok3 和 Grok3-mini 两个版本,均支持推理模式,能够处理更加复杂的任务。Grok3-mini 的 Reasoning 版本已经训练完成,而 Grok3 Reasoning 目前处于 beta 测试阶段。
Grok3 系列模型概述
Grok3 系列模型不仅具备强大的推理能力,还支持深度研究和语音交互功能。官方尚未公布具体参数,但已知该模型是在拥有 20 万张 GPU 的集群上训练而成。从构建 10 万张 GPU 集群所需的 192 天到扩展至 20 万张仅用 90 天的时间,可以看出基础设施建设的速度显著加快。尽管 DeepSeek 系列曾以较低成本实现高质量训练,但 Grok3 的成功再次证明了强大算力的重要性。
评测结果大幅领先 GPT-4
官方提供的评测结果显示,Grok3 系列在数学推理(AIME 2024)、科学事实(GPQA)及编程(LCB)等方面均取得了优异成绩。AIME 是一项面向中学生的高难度数学竞赛,Grok3 在此领域的表现尤为突出。GPQA 则用于评估模型在需要深度推理和专业知识的问题上的能力。LCB 测试则衡量了模型生成代码的能力。即使在非推理模式下,Grok3 依然表现出色,尤其是在数学评测中,Grok3-mini 的得分甚至超过了 6710 亿参数的 DeepSeek V3。
推理模式下的卓越表现
在推理模式下,Grok3 的表现更为惊人。Grok3-mini Reasoning 已经完成训练,而 Grok3 Reasoning 尽管仍在 beta 测试阶段,但也展示了强大的潜力。通过增加推理时间和生成更多的 tokens,Grok3 系列在多个评测基准上均超过了其他推理大模型。值得注意的是,Grok3 在 Chatbot Arena 的 Elo 评分系统中获得了超过 1400 分的成绩,成为迄今为止唯一达到这一分数的模型,显示了其在对话领域的顶尖实力。
Grok3 的实际应用展示
为了更好地展示 Grok3 的能力,官方提供了多个应用场景的演示截图。Grok3 支持多种模式,包括常规推理和深度推理,从实际展示来看,其效果令人印象深刻。无论是处理复杂的数学问题还是生成高质量的代码,Grok3 均表现出色,充分展现了其作为当前最强大模型的地位。
Grok3 模型总结
Grok3 是目前训练算力最多的模型之一,基于 20 万张 NVIDIA 显卡训练而成。其卓越的表现证明了在 AI 领域,强大的算力仍然是不可或缺的关键因素。未来,随着技术的进一步发展,Grok3 必将在更多领域发挥重要作用,为用户提供更加智能的服务。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...