2023年最新推理模型评测：Grok3、Deepseek、ChatGPT、Kimi 实战对比

3.7K 0

为了测试市面上最热门的推理模型，我们选择了 Grok3、Deepseek、ChatGPT 和 Kimi 四款模型进行了多维度的实战测评。本文将通过具体案例来展示这些模型在逻辑推理、排序问题和解析几何方面的表现，力求为读者提供一个公正透明的评测结果。

逻辑推理挑战

Sroan 设有一个私人保险箱，密码由7个不同的数字组成。以下是四次猜测的结果：
Guess #1: 9062437
Guess #2: 8593624
Guess #3: 4286915
Guess #4: 3450982
Sroan 表示，每个人猜对了两个位置不相邻的数字。最终密码为 4053927。
Grok3 仅耗时 129 秒便成功破解，而 ChatGPT 耗时 3 分 36 秒。Deepseek 尽管未能通关，但花费了 8 分 12 秒。令人遗憾的是，Kimi 在运行约 20 分钟后出现死机，且输出内容存在大量重复，未能完成任务。

排序问题分析

接下来是一个关于座位排列的问题：8 个人需要随机安排在教室的两排座位上，每排 4 个座位。条件是 A 和 B 必须相邻，而 C 和 D 不能相邻。最终答案是 6528 种不同排法。
Grok3 和 ChatGPT 分别以 55 秒和 38 秒的速度完成了任务。Deepseek 则用了 3 分 17 秒才得出正确答案，虽然时间较长，但仍然成功。Kimi 虽然在 2 分钟内给出了答案，但结果却是错误的。

解析几何难题

最后一个挑战涉及解析几何。题目要求求解过点 A(-1, 0) 和 B(1, 0) 的动抛物线的准线与圆 x² + y² = 9 相切时，抛物线焦点 P 的轨迹，并进一步探讨直线 OQ 与 MN 斜率之积是否为定值。
正确答案为 (x²/9 + y²/8 = 1, -5)。Grok3 用时 204 秒解决，ChatGPT 只需 1 分 13 秒。Deepseek 耗时 6 分 19 秒，尽管时间较长但仍给出正确答案。不幸的是，Kimi 再次因长时间计算后死机未能完成任务。

综合评估

综合以上测试结果，我们可以看出：
ChatGPT 的 O3Mini 版本表现最为出色，在所有测试中均能快速准确地完成任务。
Grok3 展现了强大的实力，但在某些方面略逊于 ChatGPT。
Deepseek 在本地化文本生成方面表现出色，但在逻辑推理的速度上稍显不足。
至于 Kimi，在多次测试中都遇到了死机或输出错误的问题，未能顺利完成任务。