DeepSeek-R1、o1都低于10%,人类给AI的「最后考试」来了,贡献者名单长达两页
![DeepSeek-R1、o1都低于10%,人类给AI的「最后考试」来了,贡献者名单长达两页](https://www.xuexiaigc.com/wp-content/uploads/article-images/872e332cca74c88ab8.png)
文章摘要
【关 键 词】 AI基准、AI模型、学术考试、多模态数据、专家知识
随着人工智能技术的快速发展,评估前沿大语言模型能力的需求变得愈加迫切。为此,Center for AI Safety 与 Scale AI 共同开发了一个名为 Humanity’s Last Exam 的新基准,意在解决现有基准无法精确衡量最新模型能力的问题。HLE 是一个多模态、涵盖广泛学科的高难度基准,其核心目标是测试模型对封闭式学术问题的理解能力。该基准由全球近 1000 名学科专家参与构建,包含 3000 个涉及上百门学科的高难度问题,覆盖数学、人文科学、自然科学等多个领域,具有严格的不可搜索性和原创性要求。
通过对当前最先进的大语言模型进行测试,HLE 揭示了这些模型的巨大局限性。无论是 GPT-4o 还是 DeepSeek-R1,准确度均未能超过 10%,甚至在特定情况下,某些模型表现得几乎无从入手。尽管 o3-mini 在深度研究模式下表现有所提升,但最高准确度也仅达到 26.6%。这反映出一个问题:现有模型对于复杂学术知识的推理和解题能力仍极为有限。值得注意的是,这些低分并非偶然,而是源于数据集设计上的刻意过滤——只有那些超越当前模型能力范围的问题才被纳入基准。此外,团队还发现,这些模型不仅缺乏解题能力,且对其答案正确性的信心判断也存在问题。大部分模型经常以极高的置信度给出错误答案,表明它们无法意识到自身能力边界。
为了深入探讨模型性能的技术特点,团队进一步分析了生成 token 数量与准确度之间的关系。结果表明,具备更强推理能力的模型往往需要生成更多 token 来完成问题解答,而这直接影响了效率。因此,未来的研究方向不仅要关注准确度的提升,还需聚焦于计算优化。此外,团队还对模型的校准误差进行了测量,发现几乎所有模型的实际表现与其宣称的置信水平之间存在显著偏差。
HLE 基准的开发者认为,当前 LLM 的表现虽差,但按照目前的技术发展速度,预计到 2025 年底,顶尖模型可能实现 50% 以上的准确度。然而,即便达到这一里程碑,也只是意味着模型在封闭式问题中的专家级表现,并不等同于真正意义上的自主研究或通用人工智能。因为 HLE 本质上仍是针对特定结构化问题的评估工具,它并未涉及开放性问题或创新性任务。对此,开发团队指出,这个考试或许是我们最后一次用此类形式测试 AI 的学术能力,但这只是通向更全面基准的第一步。正如标题所隐含的意义,AI 的“最后考试”既是一个结束,也是一个新的起点。
原文和模型
【原文链接】 阅读原文 [ 2141字 | 9分钟 ]
【原文作者】 机器之心
【摘要模型】 qwen-max-latest
【摘要评分】 ★★★★☆