人类自愧不如 :DeepSeek R1、o3-mini和Gemini 2.0 思考过程大横评,AI们比你脑子清楚多了

AIGC动态2天前发布 Si-Planet
231 0 0
人类自愧不如 :DeepSeek R1、o3-mini和Gemini 2.0 思考过程大横评,AI们比你脑子清楚多了

 

文章摘要


【关 键 词】 AI模型思维链对比多模态测试编程能力创意生成

本次评测针对o3-mini、DeepSeek R1和Gemini 2.0 Flash Thinking三款推理模型展开七项核心任务测试。逻辑推理测试中,三款模型均正确解答阶乘数列问题,但思维链呈现方式差异显著:o3-mini的思维链与生成结果完全重复,DeepSeek R1采用拟人化分步推导,而Gemini 2.0则展示了系统化数学问题解决策略。

字母识别测试环节,当面对非常规拼写”strawberrrrry”时,仅o3-mini和DeepSeek R1准确识别出6个’r’,前者通过二次验证机制,后者则指出题目存在故意拼写错误。Gemini 2.0两次尝试均告失败,暴露其在非常规字符处理上的短板。

创意文本生成测试揭示出模型间的创作风格分野。Gemini 2.0构建了完整的故事框架,通过环境细节与科技元素融合,完成起承转合完整的《汴梁夜星:AI点亮的宋朝》。DeepSeek R1凭借对《耕织图》《瑞鹤图》等史籍的精准引用,将故事与靖康之变历史事件深度绑定,展现出独特的历史厚重感。o3-mini虽完成基础叙事,但存在情节重复和思维链空洞的问题。

编程测试显示,o3-mini在实现旋转六边形弹球动画时准确率最高,而另两款模型存在物理边界计算偏差。在思维链构建方面,DeepSeek R1和Gemini 2.0展示了详细的代码逻辑推导,与o3-mini的简单问题复述形成对比。

多模态推理加试中,Gemini 2.0准确识别图片中的”Dundas West”真实地名,展现出强大的细粒度视觉理解能力,而DeepSeek R1的中英文诗歌创作则凸显文学想象力。对于弹性工作制等综合问题,DeepSeek R1提出”4+1弹性工作制”方案,并配套税收、监管等政策工具包,体现出对复杂社会问题的深度解析能力。

评测结果表明,DeepSeek R1在思维链逻辑性和人文元素处理上最具优势,其推理过程呈现拟人化特征;Gemini 2.0凭借系统化分析框架在结构化任务中表现稳定;o3-mini虽在部分技术任务中准确率领先,但思维链透明度受到质疑。三款模型在实时信息整合、多模态交互等维度已接近实用水平,但思维过程的可解释性仍存在显著差异。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 4425字 | 18分钟 ]
【原文作者】 硅星人Pro
【摘要模型】 deepseek-r1
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...