标签:推理能力

“李飞飞团队 50 美元炼出 DeepSeek R1”被质疑,上海交大本科生新“低成本推理”或成新宠!

斯坦福大学和华盛顿大学的研究人员开发了一个名为 s1 的人工智能推理模型,该模型以不到 50 美元的云计算成本成功训练而成,并在数学和编码能力测试中表现出...

为什么说DeepSeek的R1-Zero比R1更值得关注?

DeepSeek发布的R1-Zero和R1两个模型在ARC-AGI-1上的得分与OpenAI的o1系统低计算量版本相当,显示出纯LLM scaling的局限性。R1-Zero特别值得关注,因为它完全...

1M长上下文,满血版Gemini 2.0又一次登上Chatbot Arena榜首

谷歌近期发布了Gemini 2.0 Flash Thinking推理模型的加强版,并在Chatbot Arena排行榜上再次登顶。谷歌AI负责人Jeff Dean表示,新版本引入了1M长的上下文,以...

开源版o1!中国大模型让国外陷入疯狂,成本猛降90%

DeepSeek开源的R1模型在多个测试中表现优异,超越了OpenAI的o1模型。在美国AIME 2024测试中,R1得分79.8,高于o1的79.2分;在MATH-500中,R1得分97.3,同样超...

450美元训练一个「o1-preview」?UC伯克利开源32B推理模型Sky-T1,AI社区沸腾了

加州大学伯克利分校天空计算实验室的研究团队NovaSky发布了Sky-T1-32B-Preview,这是一个32B推理模型,其训练成本不到450美元,显示出高级推理能力的复制可以...

极客说|微软 Phi 系列小模型和多模态小模型

本文介绍了微软在小模型(Small Language Models, SLMs)领域的研究成果,特别是Phi系列模型。随着大模型规模的扩大,训练和运行所需的计算资源日益紧张,小...

OpenAI官宣o3系列王者模型:能解最难的数学题,单个任务最高花费数千美元,越贵越好用!

OpenAI在“OpenAI 12 天”活动的尾声发布了两款新模型:o3和o3-mini,作为o1和o1-mini的继任者。o3系列模型在编码、数学和科学掌握、以及推理能力上表现出色,...

刚刚,OpenAI放出最后大惊喜o3,高计算模式每任务花费数千美元

OpenAI最近发布了新的推理系列模型o3和o3-mini,作为o1系列模型的继任者,这些模型在回答问题前会花费更多时间进行思考以提高准确率。o3系列模型在ARC-AGI基...

免费o1替代品来了!谷歌新发“王炸”推理大模型:思考速度碾压其他大模型,水平堪比理科博士

谷歌在其“Gemini 2.0 Flash Thinking”模型上取得了新进展,该模型以其卓越的推理能力而受到关注,能够通过“明确地展示自己的思维”来解决复杂问题,其水平与物...

Ilya Sutskever 在 NeurIPS 2024 的演讲:预训练时代已经结束了

在NeurIPS 2024会议上,Safe SuperIntelligence实验室创始人、原OpenAI联合创始人兼首席科学家Ilya Sutskever发表了题为《Sequence to sequence learning wit...
1 2 3 5