Claude挣钱强于o1!OpenAI开源百万美元编码基准,检验大模型钞能力

文章摘要
【关 键 词】 AI评估、编码性能、开源基准、软件工程、模型挑战
OpenAI推出并开源了全新基准测试SWE-Lancer,旨在通过真实软件工程任务评估大模型的编码能力。该基准包含来自自由职业平台Upwork的1,488个任务,总价值达100万美元,涵盖独立工程任务(IC)和管理任务两大类别。任务复杂度与市场价值直接相关,平均完成时间超过21天,最高单项报酬达32,000美元,涉及全栈开发、功能实现和项目管理等现实场景。
独立工程任务要求模型根据问题描述和代码库进行端到端修复,而管理任务需要模型模拟工程经理角色选择最优解决方案。评估结果显示,Claude 3.5 Sonnet以403,325美元总报酬领先,但所有测试模型(包括GPT-4o)均未突破50%任务完成率。在管理任务中,模型表现普遍优于技术实现任务,Claude 3.5 Sonnet相较次优模型o1分别取得9.7%和3.4%的优势。
研究发现,模型在问题定位速度上超越人类工程师,但存在根本原因分析不足的缺陷。通过关键词搜索快速定位问题源文件后,模型常因对系统组件间交互理解不深,导致解决方案不完整。实验还表明,增加测试时计算量可显著提升高价值任务表现,且性能更强的模型更依赖用户工具支持。
为促进研究,OpenAI开源了包含Docker镜像和公共评估分割的SWE-Lancer Diamond套件。该基准首次将模型性能与现实经济价值直接关联,任务数据来自Expensify开源库,经专业工程师三重验证。测试环境严格限制网络访问,防止模型通过外部资源获取优势。
研究结论指出,当前前沿模型虽能处理基础编程问题,但尚不具备替代初级软件工程师的能力。在管理决策任务中展现的较强技术理解力,暗示AI可能更早介入项目管理环节。随着测试计算资源增加带来的性能提升,研究者预测模型独立完成复杂工程任务的周期可能缩短。
原文和模型
【原文链接】 阅读原文 [ 1772字 | 8分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek-r1
【摘要评分】 ★★★★☆