人类自愧不如：DeepSeek R1、o3-mini和Gemini 2.0 思考过程大横评，AI们比你脑子清楚多了

953 0 0

文章摘要

本次评测针对o3-mini、DeepSeek R1和Gemini 2.0 Flash Thinking三款推理模型展开七项核心任务测试。逻辑推理测试中，三款模型均正确解答阶乘数列问题，但思维链呈现方式差异显著：o3-mini的思维链与生成结果完全重复，DeepSeek R1采用拟人化分步推导，而Gemini 2.0则展示了系统化数学问题解决策略。

在字母识别测试环节，当面对非常规拼写”strawberrrrry”时，仅o3-mini和DeepSeek R1准确识别出6个’r’，前者通过二次验证机制，后者则指出题目存在故意拼写错误。Gemini 2.0两次尝试均告失败，暴露其在非常规字符处理上的短板。

创意文本生成测试揭示出模型间的创作风格分野。Gemini 2.0构建了完整的故事框架，通过环境细节与科技元素融合，完成起承转合完整的《汴梁夜星：AI点亮的宋朝》。DeepSeek R1凭借对《耕织图》《瑞鹤图》等史籍的精准引用，将故事与靖康之变历史事件深度绑定，展现出独特的历史厚重感。o3-mini虽完成基础叙事，但存在情节重复和思维链空洞的问题。

编程测试显示，o3-mini在实现旋转六边形弹球动画时准确率最高，而另两款模型存在物理边界计算偏差。在思维链构建方面，DeepSeek R1和Gemini 2.0展示了详细的代码逻辑推导，与o3-mini的简单问题复述形成对比。

多模态推理加试中，Gemini 2.0准确识别图片中的”Dundas West”真实地名，展现出强大的细粒度视觉理解能力，而DeepSeek R1的中英文诗歌创作则凸显文学想象力。对于弹性工作制等综合问题，DeepSeek R1提出”4+1弹性工作制”方案，并配套税收、监管等政策工具包，体现出对复杂社会问题的深度解析能力。

评测结果表明，DeepSeek R1在思维链逻辑性和人文元素处理上最具优势，其推理过程呈现拟人化特征；Gemini 2.0凭借系统化分析框架在结构化任务中表现稳定；o3-mini虽在部分技术任务中准确率领先，但思维链透明度受到质疑。三款模型在实时信息整合、多模态交互等维度已接近实用水平，但思维过程的可解释性仍存在显著差异。