标签:视觉推理
全球顶尖AI来考公,不会推理全翻车!致命缺陷曝光,被倒数5%人类碾压
卡内基梅隆大学(CMU)的研究团队针对公务员考试中的逻辑推理题,设计了一套名为VisualPuzzles的视觉推理基准测试,旨在评估多模态大模型的推理能力。该测试...
OpenAI深夜上线o3满血版和o4 mini – 依旧领先。
OpenAI在直播中正式发布了o3和o4-mini模型,取代了之前的o1、o3-mini和o3-mini-high。ChatGPT Plus、Pro和Team用户从即日起可以在模型选择器中看到这些新模型...
OpenAI震撼发布o3/o4-mini,直逼视觉推理巅峰!首用图像思考,十倍算力爆表
OpenAI最新发布的满血版o3和o4-mini模型在多个领域展现了卓越的性能,尤其是在视觉推理和工具调用方面实现了重大突破。o3模型首次将图像推理融入思维链,能够...
阶跃星辰再拿多模态榜首,全方位升级发布六款模型
随着春节的临近,2025年初大模型领域迎来了新一轮的竞争高潮。OpenAI的ChatGPT推出了新功能“Tasks”,而国内厂商如月之暗面、MiniMax、生数科技等也纷纷发布了...
刚刚,阶跃星辰发布Step R-mini!推理模型从此不再文理偏科
阶跃星辰发布了其Step系列模型家族的首个推理模型——Step Reasoner mini(Step R-mini),标志着国内推理模型领域的一大进展。Step R-mini擅长规划、尝试和反...
o3 都要来了还能做点什么?人大&蚂蚁团队:自下而上数据合成让大模型能够多模态推理
中国人民大学高瓴人工智能学院与蚂蚁技术研究院的研究团队在EMNLP 2024上提出了一种视觉推理框架,旨在提升视觉语言模型的多模态推理能力。该框架基于“由浅入...
新王Claude 3.5实测:阿里数学竞赛题不给选项直接做对
Claude 3.5 Sonnet是Anthropic公司推出的一款新型大型语言模型,以其卓越的性能和快速、低成本的特点在全球范围内受到关注。在关键指标的比较中,Claude 3.5 ...