OpenAI 公开 o3-mini 思维链：与 DeepSeek R1 对比引发热议

4.2K 0

OpenAI 最近宣布公开其最新模型 o3-mini 系列的思维链，允许用户查看模型的推理过程。然而，这一举措在首次亮相时受到了一些质疑。为了解实际表现，多家媒体进行了详细评测，并将其与 DeepSeek R1 进行了对比，结果显示两者之间存在显著差异。

OpenAI 的新进展

OpenAI 研究科学家 Noam Brown 在社交平台上提到：“在 o1-Preview 发布之前，我们向大家介绍了思维链（Chain of Thought, CoT）的运行方式，许多人都在这时有了‘顿悟’时刻，意识到这项技术的重要性。”他还补充道，尽管公开的思维链并非完全原始版本，但已经非常接近，能让用户体验到模型的真实思考过程。

o3-mini 的独特之处

o3-mini 成为了首个能够持续准确解答井字棋问题的大语言模型。虽然概括后的思维链可能显得有些杂乱，但从结果来看，该模型确实能够找到正确的解决方案。值得注意的是，OpenAI 并未完全公开 o3-mini 的所有推理步骤，而是选择提供一个经过整理的摘要版本，以保护商业机密。

透明度与安全性

为了提高清晰度和安全性，OpenAI 引入了一个额外的后处理步骤，用于审查和简化复杂的思维链内容，同时确保非英语用户能够使用母语查看这些信息。这种做法既增强了用户体验，也有助于防止潜在的安全风险。

竞争中的挑战

随着 AI 行业对推理透明度的关注日益增加，如何在保持竞争优势的同时满足用户需求成为了一个难题。OpenAI 首席产品官 Kevin Weil 表示，公司正努力提供更多关于模型推理的信息，但是否会公开完整的思维链仍在讨论中。DeepSeek R1 则采取了更为开放的态度，其全面公开的思维链赢得了用户的广泛好评。

实际测试对比

X 网友 @thegenioo 对两款模型进行了实测，比较了它们在不同问题上的表现。例如，在回答“deeepseeeeeek 有多少个 e”时，DeepSeek R1 给出了详细的解释，而 o3-mini(high) 则直接得出了答案。对于更复杂的逻辑问题，如“如何用两个水壶取得 3 升水”，DeepSeek R1 展现了更加严谨细致的推理过程，而 o3-mini(high) 则以简洁的方式快速解决了问题。

不同的思维方式

从测试结果可以看出，DeepSeek R1 的推理风格更像是文科生，注重细节和逻辑连贯性；而 o3-mini(high) 则更像理科生，追求效率和准确性。虽然两者在解决问题的速度上有区别，但在答案的质量方面各有千秋。此外，由于 OpenAI 公布的思维链并非完整版，部分用户对此提出了质疑，认为这可能是受到市场竞争压力的结果。