AI无法攻克的235道谜题!让o1、Gemini 2.0 Flash Thinking集体挂零

AI无法攻克的235道谜题!让o1、Gemini 2.0 Flash Thinking集体挂零

 

文章摘要


【关 键 词】 大语言模型多模态推理基准测试性能评估模型局限

Scale AI、Center for AI Safety与MIT研究者联合推出的ENIGMAEVAL基准,通过1184道源自解谜寻宝竞赛的复杂题目,系统评估大语言模型多模态推理能力。该基准包含原始PDF图像和结构化文本-图像两种格式,旨在区分模型在端到端任务中的真实推理能力与文档解析能力,其中普通难度题目949道,困难难度235道,平均需要人类团队数小时至数天才能解决。

测试结果显示,现有模型在复杂推理任务中表现显著不足。包括OpenAI o1在内的SOTA模型在普通谜题上的准确率最高仅为7.0%左右,在困难谜题上的准确率则降至0%,远低于人类解谜者的水平。研究特别指出,模型在原始PDF格式谜题上的性能可能因OCR和解析能力限制出现断崖式下降,但案例分析表明部分模型已具备较强的复杂文档处理能力,主要瓶颈仍在于深层推理机制。

基准设计通过人工转录版本与原始多模态问题的对照测试,揭示了模型能力评估的关键维度。结构化文本-图像版本通过保留语义关系和视觉元素,有效降低了文档解析对评估结果的干扰,使研究者能更精准定位模型在逻辑推理、跨学科知识整合等核心能力上的缺陷。实验过程中采用双重验证机制,由o1模型审核自身生成答案的原创性,并通过人工复核确认模型独立解题的真实性。

值得注意的是,所有测试模型在困难难度题目中完全失败,暴露出当前技术在处理需要创造性思维、多步骤推理和非结构化问题时的根本性局限。研究团队将ENIGMAEVAL与此前发布的Humanity’s Last Exam基准形成互补,构建起评估大语言模型极限能力的双重体系。

该研究还引发了对模型优化方向的思考:虽然部分模型展现出较强的文档处理能力,但从转录版到原始版谜题的性能波动表明,视觉信息理解与符号推理的深度融合仍是待突破的技术难点。未参与测试的DeepSeek-R1等模型的表现潜力,以及如何通过此类基准指导模型架构创新,将成为后续研究的重要方向。

原文和模型


【原文链接】 阅读原文 [ 1804字 | 8分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek-r1
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...