最新发布的ChatGPT o1满血版和o1-Pro两款AI模型引起了广泛关注。OpenAI正式推出了这两个新模型,其中o1模型是之前o1-preview的完整版本,现在去掉了preview标签,意味着o1模型的功能已全部开放。新版本增加了图片和文件上传功能,支持多模态理解,但网页搜索功能仍未上线。CEO奥特曼通过柱状图展示了o1在数学推理和编程领域的显著提升,而在科研领域提升较为有限。
o1满血版功能增强
o1满血版不仅支持图片和文件上传,还增强了多模态理解能力。尽管网页搜索功能尚未上线,这一缺失令人遗憾。o1模型在数学推理和编程方面表现出色,尤其在数学推理方面,提升幅度达到约50%,而科研领域的提升相对较小。对于普通用户而言,o1模型无需额外付费即可使用,性价比非常高。
o1-Pro的高昂代价
相比之下,o1-Pro则需要订阅200美元的套餐才能优先使用。虽然o1-Pro在o1基础上有所改进,但提升幅度并不显著。200美元套餐除了提供o1-Pro的使用权外,还包括无限制使用o1模型和高级语音功能。然而,对于大多数用户来说,o1模型已能满足日常需求,不必为了o1-Pro支付高额费用。
实际测试:数学推理与图形问题
为了评估o1满血版的实际表现,我们进行了多项测试。首先是数学推理测试,题目涉及求解总利润函数和最大利润。所有AI都给出了相同且正确的答案——188.14万元。o1模型不仅给出了正确答案,还展示了详细的推理过程,便于用户验证。
接下来是图形问题测试,使用一张小学四年级奥林匹克竞赛题的图片进行提问。在这次测试中,国产AI kimi和文心一言分别给出了A和B两个选项,而o1模型选择了B,但正确答案是A。这表明o1在处理图形问题时存在一定的误判,可能是因为图像识别或推理过程中出现了错误。
编程任务与日常应用
在编程任务测试中,题目要求编写一个检查网络连接状态并根据情况重启电脑的程序。国产AI kimi和文心一言都快速给出了可行的解决方案,kimi还在代码中添加了详细注释,提升了用户体验。o1模型则提供了更全面的回答,包括实现思路、示范代码、代码分析以及测试思路,非常适合编程初学者。
在日常应用测试中,我们要求AI解释如何制作草莓馅饼。三款AI都能正确识别甜点类型并给出相似的配方,但o1模型的回答更为详尽,包括每个步骤的具体操作和注意事项,适合烘焙新手。
AI的未来发展方向
总体来看,o1模型在回答细致度和推理过程展示方面具有明显优势,但在准确性方面并未显著超越国产AI。特别是在图形问题上,o1的表现不如预期。国产AI如kimi在某些测试中表现出色,尤其是数学推理环节,kimi是唯一全部答对的AI,性价比极高。
随着AI技术的发展,细分化趋势逐渐显现。ChatGPT o1通过深度“思考”来解决问题,而普通AI则依赖关键词拆解和算法组合。这种差异使得o1在特定领域如科研和金融分析中表现更好,而对于大多数用户来说,免费的国产AI如kimi和文心一言仍然是更好的选择。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...