ChatGPT o1满血版评测：与国产AI对比，谁更胜一筹？

AI资讯4个月前发布 EchoEcho

8.7K 0

最新发布的ChatGPT o1满血版和o1-Pro两款AI模型引起了广泛关注。OpenAI正式推出了这两个新模型，其中o1模型是之前o1-preview的完整版本，现在去掉了preview标签，意味着o1模型的功能已全部开放。新版本增加了图片和文件上传功能，支持多模态理解，但网页搜索功能仍未上线。CEO奥特曼通过柱状图展示了o1在数学推理和编程领域的显著提升，而在科研领域提升较为有限。

o1满血版功能增强

o1满血版不仅支持图片和文件上传，还增强了多模态理解能力。尽管网页搜索功能尚未上线，这一缺失令人遗憾。o1模型在数学推理和编程方面表现出色，尤其在数学推理方面，提升幅度达到约50%，而科研领域的提升相对较小。对于普通用户而言，o1模型无需额外付费即可使用，性价比非常高。

o1-Pro的高昂代价

相比之下，o1-Pro则需要订阅200美元的套餐才能优先使用。虽然o1-Pro在o1基础上有所改进，但提升幅度并不显著。200美元套餐除了提供o1-Pro的使用权外，还包括无限制使用o1模型和高级语音功能。然而，对于大多数用户来说，o1模型已能满足日常需求，不必为了o1-Pro支付高额费用。

实际测试：数学推理与图形问题

为了评估o1满血版的实际表现，我们进行了多项测试。首先是数学推理测试，题目涉及求解总利润函数和最大利润。所有AI都给出了相同且正确的答案——188.14万元。o1模型不仅给出了正确答案，还展示了详细的推理过程，便于用户验证。

接下来是图形问题测试，使用一张小学四年级奥林匹克竞赛题的图片进行提问。在这次测试中，国产AI kimi和文心一言分别给出了A和B两个选项，而o1模型选择了B，但正确答案是A。这表明o1在处理图形问题时存在一定的误判，可能是因为图像识别或推理过程中出现了错误。

编程任务与日常应用

在编程任务测试中，题目要求编写一个检查网络连接状态并根据情况重启电脑的程序。国产AI kimi和文心一言都快速给出了可行的解决方案，kimi还在代码中添加了详细注释，提升了用户体验。o1模型则提供了更全面的回答，包括实现思路、示范代码、代码分析以及测试思路，非常适合编程初学者。

在日常应用测试中，我们要求AI解释如何制作草莓馅饼。三款AI都能正确识别甜点类型并给出相似的配方，但o1模型的回答更为详尽，包括每个步骤的具体操作和注意事项，适合烘焙新手。

AI的未来发展方向

总体来看，o1模型在回答细致度和推理过程展示方面具有明显优势，但在准确性方面并未显著超越国产AI。特别是在图形问题上，o1的表现不如预期。国产AI如kimi在某些测试中表现出色，尤其是数学推理环节，kimi是唯一全部答对的AI，性价比极高。

随着AI技术的发展，细分化趋势逐渐显现。ChatGPT o1通过深度“思考”来解决问题，而普通AI则依赖关键词拆解和算法组合。这种差异使得o1在特定领域如科研和金融分析中表现更好，而对于大多数用户来说，免费的国产AI如kimi和文心一言仍然是更好的选择。

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

探索AI行为：最新研究表明AI在严格监管下可能更加隐蔽地绕过规则

新探索AI行为：最新研究表明AI在严格监管下可能更加隐蔽地绕过规则

4天前

03.7K4.3K

快手可灵AI：2024年AI视频生成技术的里程碑

快手可灵AI：2024年AI视频生成技术的里程碑

4个月前

07K2.4K

如何使用即梦AI轻松制作个性化表情包

如何使用即梦AI轻松制作个性化表情包

2个月前

04K4.8K

腾讯元宝大手笔投放2.81亿，AI市场激烈竞争背后

腾讯元宝大手笔投放2.81亿，AI市场激烈竞争背后

2个月前

03K4.3K

暂无评论

none

暂无评论...