标签:学科覆盖

DeepSeek-R1、o1都在及格线挣扎!字节开源全新知识推理测评集,覆盖285个学科

字节跳动豆包大模型团队联合M-A-P开源社区推出全新评测基准SuperGPQA,旨在解决当前大模型通用知识推理评估体系的局限性。该基准覆盖285个研究生级学科,包含...