三大模型巨头比拼思考「幻觉」:DeepSeek 不敌 ChatGPT,Gemini 用词最少

文章摘要
智利大学 CIAE 教育研究所的研究员 Roberto Araya 最近进行了一项关于大模型在应对幻觉问题上的性能对比研究,涉及 Gemini 2.0 Flash、ChatGPT o3-mini 和 DeepSeek R1 三个模型。研究发现,ChatGPT o3-mini 在应对大模型幻觉问题上表现最为出色,能够灵活切换不同的策略进行思考推理。相比之下,DeepSeek R1 和 Gemini 2.0 Flash 虽然能够尝试使用策略,但表现出对这些策略的抗拒,且推理过程存在错误或混乱。
在推理过程中,三个模型展现出显著差异。Gemini 2.0 Flash 的思维链用词最少,ChatGPT o3-mini 是其约 3 到 10 倍,DeepSeek R1 是其大约 12 到 36 倍。尽管 Gemini 2.0 Flash 用词更少,其推理过程中策略使用方法与推理结论效果却不是最佳。在四个策略实验中,ChatGPT o3-mini 的推理过程与结论正确率最高,DeepSeek R1 虽然推理过程更冗长、但结论正确率远高于 Gemini。
研究团队设计了一个适合小学生兴趣与认知水平的贝叶斯推理问题,选择了谎言检测这一主题。在第一个实验中,研究人员测试了模型在无提示的情况下解决一个贝叶斯推理问题的能力。结果表明,测试的三种模型均未能自主使用生态策略来解决问题。Gemini 2.0 Flash 在第一次尝试中用了 255 个词得出结论,第二次尝试用了 389 个词,但推理过程不正确。ChatGPT 用了 2039 个词,耗时 32 秒,推理过程看似合理但存在逻辑漏洞。DeepSeek R1 的推理过程最为复杂,用了 2876 个词,最终得出了正确结论,但在推理过程中犹豫不决。
在第二个实验中,研究人员增加了一个引导提示,建议模型使用 Gerd Gigerenzer 提出的“自然频率”策略来解决问题。只有 ChatGPT o3-mini 成功地将概率转换为自然频率,用了 1107 个词,并且将推理过程分成了两部分,最终得出了正确结论。相比之下,Gemini 2.0 Flash 用了 204 个词,虽然尝试了自然频率策略,但其推理过程并不一致,最终得出了错误的推理逻辑。DeepSeek R1 的表现则更为复杂,共用了 7344 个词,最终虽然得出了正确的结论,但其推理过程充满了犹豫和反思。
在第三个实验中,研究人员在最后增加了一个条件,明确地以塑料块的具体形式表示每个案例,并将问题简化为计数块。只有 ChatGPT o3-mini 成功地将概率转换为自然频率,共用了 1141 个词,并用塑料块来表示每个案例,从而得出了正确结论。Gemini 2.0 Flash 用了 351 个词,虽然尝试了整体对象策略,但其推理过程并不一致,导致其推理逻辑存在错误。DeepSeek R1 用了 5504 个词,而且在推理过程中频繁地在自然频率和百分比之间切换,结论虽然正确,但过程过于冗长。
在最后一个实验中,研究人员增加了一句话,要求模型描述如何通过计数块来解决问题,并以一种适合 12 岁学生的教学方式,使用两种颜色的块来解释推理。ChatGPT o3-mini 用了 1405 个词并成功地将概率转换为自然频率,并用塑料块来表示每个案例,同时正确地使用了着色策略得出了正确结论。Gemini 2.0 Flash 用了 504 个词,虽然尝试了着色策略,但在推理过程中出现了错误,未能正确整合所有线索。DeepSeek R1 的表现则更为复杂,用了 8457 个词,而且过程中多次出现混乱,最终在清洁版本中正确使用塑料块,但颜色标记错误。
最终,研究人员得出结论:在实验中,三种模型在贝叶斯推理任务中的表现各有不同,并且所有模型在某些条件下都能得出正确结论,但在无提示条件下,它们的表现都不稳定。ChatGPT o3-mini 在提示条件下表现最为稳定,能够灵活切换推理方法,并正确使用自然频率进行推理。相比之下,DeepSeek R1 虽然最终也能得出正确结论,但其推理过程冗长且混乱,多次进行自我检查和调整。而 Gemini 2.0 Flash 虽然在提示条件下能够尝试使用生态有效策略,但其推理过程存在错误。
大模型的幻觉问题一直是一个“顽疾”,不管技术多么先进,模型总会有不靠谱的时候。幻觉问题可以分为事实性幻觉和忠实性幻觉两大类。事实性幻觉指的是模型生成的内容与可验证的现实世界事实不一致,而忠实性幻觉则是模型生成的内容与用户的指令或上下文不一致。大模型产生幻觉的原因主要可以归纳为数据源问题、训练过程问题和推理过程问题。为了减少幻觉问题,研究人员提供了多种策略,例如提升训练数据的质量和多样性、引入先验知识和常识、增加模型的鲁棒性、优化模型架构和算法、结合人类评估和反馈等方法。
虽然幻觉有时候可能导致模型生成不准确或误导性的内容,但两者之间还是存在着一定的区别。回答错误是输出与正确答案不符,可通过比较纠正,而幻觉是生成内容脱离实际输入或现实,是模型的“想象”,难以直接比较发现。两者之间可能有所关联,但评估模型时需综合考虑多种因素。
原文和模型
【原文链接】 阅读原文 [ 2532字 | 11分钟 ]
【原文作者】 AI科技评论
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★