OpenAI发布SWE-Lancer编码基准测试：Claude 3.5 Sonnet力压GPT-4赢得最高报酬

AI资讯2个月前发布 TextTitan

10.9K 0

最新发布的SWE-Lancer编码基准测试引发了广泛关注。OpenAI推出了这一全新基准测试，旨在评估AI模型在真实世界编程任务中的表现。测试结果令人意外，Anthropic的Claude 3.5 Sonnet在众多模型中脱颖而出，赢得了最高报酬。

SWE-Lancer基准测试包含了来自Upwork平台的1400多个自由软件工程任务，这些任务在现实中总值100万美元。参与测试的模型包括OpenAI的GPT-4以及其他前沿模型。Claude 3.5 Sonnet最终以403,325美元的总报酬拔得头筹，超过了OpenAI自家的GPT-4。

SWE-Lancer：更贴近现实的编码能力评估

SWE-Lancer基准测试不仅涵盖了代码编写任务，还涉及技术管理决策。IC SWE任务要求模型生成代码补丁以解决实际问题，而SWE管理任务则要求模型选择最佳的技术实施方案。为了确保任务的高质量和代表性，100名专业软件工程师对任务进行了严格审查。

实验结果与分析

实验结果显示，所有模型在SWE-Lancer数据集上获得的报酬均未达到100万美元的潜在总报酬。Claude 3.5 Sonnet在高质量数据集（Diamond set）上的表现尤为突出，获得了208,050美元的报酬，解决了26.2%的IC SWE任务。尽管如此，许多解决方案仍然存在错误，需要进一步提高可靠性。

增加尝试次数与计算资源的影响

研究团队通过增加尝试次数和计算资源，评估了模型性能的变化。结果表明，增加尝试次数可以显著提升通过率，尤其是对于较弱的模型。例如，o1模型在增加6次尝试后，解决任务的比例提高了近两倍。同时，增加计算资源也能提高在高难度任务上的表现，报酬率从6.8%提升至12.1%。

用户工具的重要性

实验还探讨了用户工具对模型性能的影响。虽然移除用户工具对通过率的影响较小，但最强的模型能够更有效地利用这些工具。用户工具通常需要90到120秒的运行时间，表现最优的模型会设置合理的超时时间并在结果可用时进行复查。

AI智能体的表现与挑战

尽管AI智能体在问题定位方面表现出色，但它们往往未能找到根本原因，导致解决方案不完整或存在缺陷。研究人员发现，AI智能体能够快速定位相关文件和函数，但在处理跨组件或多文件问题时表现不佳。未来的研究需要进一步提升AI智能体在复杂任务中的表现。

结论

SWE-Lancer基准测试展示了当前AI模型在真实世界编程任务中的表现。尽管Claude 3.5 Sonnet取得了优异的成绩，但所有模型在某些方面仍需改进。通过增加尝试次数、计算资源以及优化用户工具的使用，未来的AI模型有望在更多任务中取得更好的表现。

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

2025年2月20日：AI眼镜与医药股引领股市新趋势

2025年2月20日：AI眼镜与医药股引领股市新趋势

2个月前

06.4K2K

腾讯元宝广告投放策略及其背后：与DeepSeek携手应对AI流量战

腾讯元宝广告投放策略及其背后：与DeepSeek携手应对AI流量战

2个月前

01.8K6.4K

探索未来：人工智能在现代社会中的角色与发展

新探索未来：人工智能在现代社会中的角色与发展

4天前

02.2K1.5K

GPT-4.5 正式发布：ChatGPT Plus 用户率先体验更智能的对话模型

GPT-4.5 正式发布：ChatGPT Plus 用户率先体验更智能的对话模型

2个月前

09.4K2.9K

暂无评论

none

暂无评论...