Grok-3 实测：埃隆·马斯克的 AI 是否超越了 DeepSeek？

1.8K 0

最新发布的 Grok-3 是由埃隆·马斯克的 xAI 开发的高级 AI 聊天机器人，计算能力较前代提升了 10 倍以上，并引入了增强的推理功能，能够将复杂任务分解为更小部分并在回复前自行验证答案。在早期测试中，Grok-3 表现优于 OpenAI 的 GPT-4、谷歌的 Gemini 以及 DeepSeek 的 V3 等模型。它提供两种独特的推理模式：“思考模式”，展示 Grok 解决问题的过程；“大脑模式”，适用于计算强度更高的任务。xAI 还推出了一款名为 Deep Search 的新一代 AI 搜索引擎。

测试 Grok-3 的五个提示

为了评估 Grok-3 的可靠性，我设计了五个测试提示。值得注意的是，我发现 Grok-3 并不总是提供来源，因此我调整了提示以帮助自己核实其回答。

高级推理提示

提示一要求解释量子纠缠的概念及其对信息传输的影响。Grok-3 成功介绍了量子纠缠，描述了粒子间的紧密关联，即使相距甚远，一个粒子的状态仍会影响另一个粒子。它使用通俗易懂的类比，如将纠缠粒子比作链接在一起的物体，帮助用户理解复杂的量子现象。然而，Grok-3 缺乏权威来源的支持，若能引入知名科学文献的参考资料，用户的信任度会更高。

深度研究提示

提示二要求总结过去一个月内关于可再生能源的最新研究。Grok-3 快速从多个来源提取信息，涵盖太阳能、风能、能源存储、绿色氢能生产、生物能源发展及电网整合策略。它展示了对可再生能源领域的全面理解，并提到利用 AI 和机器学习优化电网管理。然而，Grok-3 没有引用具体研究或最新数据，如 2025 年 1 月中旬至 2 月中旬的数据，削弱了回答的权威性。

大脑模式提示

提示三要求分析发达国家实施全民基本收入（UBI）的经济影响。Grok-3 的回答既涵盖了 UBI 的正面影响，也提到了潜在的负面影响，提供了全面的分析。它引用了一些具体研究和试点项目，提升了可信度。然而，回答中仍使用了“可能”和“或许”等词汇，削弱了权威性。此外，分析主要关注短期影响，而未深入探讨长期经济后果。

图像生成提示

提示四要求生成一张夕阳下的未来城市景观的写实图像。Grok-3 生成的图像质量极高，灯光、反射和大气效果逼真，增强了沉浸感。未来主义建筑风格和配色方案增加了视觉美感。它提供了多个不同角度的图像，丰富了视觉体验。然而，不同图像的风格有所差异，有些极具科幻感，而有些与现代城市相似。若能加入更多创新元素，如飞行汽车，会让未来城市更具科幻感。

多模态输入处理提示

提示五要求分析过去一个世纪的全球气温变化，并总结关键趋势。Grok-3 正确描述了 20 世纪以来全球气温上升（约 1.1-1.2°C），与 NOAA、NASA 和 IPCC 的研究结果一致。它识别出两个关键变暖阶段（1910-1940 年和 1970 年后），并提到北极增温现象及陆地与海洋升温速率的差异。然而，Grok-3 没有引用具体的数据集或报告，如 HadCRUT 或 GISTEMP，削弱了回答的可信度。

最终评价

Grok-3 在处理分析性和解释性提示方面表现出色，涵盖了气候科学、经济学、人工智能和物理学等多个复杂主题。尽管回答通常结构清晰且信息丰富，但仍有一些需要改进的地方。主要问题包括缺乏明确来源、不提供直接链接和过多使用模糊措辞。图像生成有时未能完全符合要求，让我怀疑它在处理其他提示时是否也会出现类似情况。总之，Grok-3 是一款强大的 AI，在信息组织和用户互动方面表现出色，但还需要进一步完善。