最新发布的SWE-Lancer编码基准测试引发了广泛关注。OpenAI推出了这一全新基准测试,旨在评估AI模型在真实世界编程任务中的表现。测试结果令人意外,Anthropic的Claude 3.5 Sonnet在众多模型中脱颖而出,赢得了最高报酬。
SWE-Lancer基准测试包含了来自Upwork平台的1400多个自由软件工程任务,这些任务在现实中总值100万美元。参与测试的模型包括OpenAI的GPT-4以及其他前沿模型。Claude 3.5 Sonnet最终以403,325美元的总报酬拔得头筹,超过了OpenAI自家的GPT-4。
SWE-Lancer:更贴近现实的编码能力评估
SWE-Lancer基准测试不仅涵盖了代码编写任务,还涉及技术管理决策。IC SWE任务要求模型生成代码补丁以解决实际问题,而SWE管理任务则要求模型选择最佳的技术实施方案。为了确保任务的高质量和代表性,100名专业软件工程师对任务进行了严格审查。
实验结果与分析
实验结果显示,所有模型在SWE-Lancer数据集上获得的报酬均未达到100万美元的潜在总报酬。Claude 3.5 Sonnet在高质量数据集(Diamond set)上的表现尤为突出,获得了208,050美元的报酬,解决了26.2%的IC SWE任务。尽管如此,许多解决方案仍然存在错误,需要进一步提高可靠性。
增加尝试次数与计算资源的影响
研究团队通过增加尝试次数和计算资源,评估了模型性能的变化。结果表明,增加尝试次数可以显著提升通过率,尤其是对于较弱的模型。例如,o1模型在增加6次尝试后,解决任务的比例提高了近两倍。同时,增加计算资源也能提高在高难度任务上的表现,报酬率从6.8%提升至12.1%。
用户工具的重要性
实验还探讨了用户工具对模型性能的影响。虽然移除用户工具对通过率的影响较小,但最强的模型能够更有效地利用这些工具。用户工具通常需要90到120秒的运行时间,表现最优的模型会设置合理的超时时间并在结果可用时进行复查。
AI智能体的表现与挑战
尽管AI智能体在问题定位方面表现出色,但它们往往未能找到根本原因,导致解决方案不完整或存在缺陷。研究人员发现,AI智能体能够快速定位相关文件和函数,但在处理跨组件或多文件问题时表现不佳。未来的研究需要进一步提升AI智能体在复杂任务中的表现。
结论
SWE-Lancer基准测试展示了当前AI模型在真实世界编程任务中的表现。尽管Claude 3.5 Sonnet取得了优异的成绩,但所有模型在某些方面仍需改进。通过增加尝试次数、计算资源以及优化用户工具的使用,未来的AI模型有望在更多任务中取得更好的表现。