标签:强化学习

为什么说DeepSeek的R1-Zero比R1更值得关注?

DeepSeek发布的R1-Zero和R1两个模型在ARC-AGI-1上的得分与OpenAI的o1系统低计算量版本相当,显示出纯LLM scaling的局限性。R1-Zero特别值得关注,因为它完全...

超全推理语言模型蓝图来了!揭开o1、o3、DeepSeek-V3神秘面纱

ETH Zurich等机构的研究人员提出了推理语言模型(RLM)的蓝图,旨在克服最先进RLM的高昂成本和专有特性带来的可访问性和公平性问题。RLM被视为AI领域的革命性...

追平多模态满血o1,kimi的新模型k1.5 破解了OpenAI的秘密?

随着年关的临近,大模型行业迎来了新一轮的热潮。DeepSeek和Kimi两大国产大模型相继发布,DeepSeek R1和Kimi k1.5,均对标OpenAI的o1模型。DeepSeek R1以其性...

DeepSeek R1来了,追平o1!它现在不但比OpenAI开放,也比它有活力

DeepSeek R1系列模型的发布标志着一项技术突破,该系列包括三个模型:DeepSeek-R1-Zero、DeepSeek-R1和小型密集模型。DeepSeek-R1-Zero通过仅使用强化学习(R...

Kimi、DeepSeek中门对狙?中外开发者大对比还暗讽OpenAI,DeepSeek新涌现被赞爆!

近期,Kimi和DeepSeek两大AI研究机构分别发布了各自的最新模型:Kimi的k1.5和DeepSeek的DeepSeek-R1系列。Kimi 1.5在Github上发布技术报告,获得不到300 star...

刚刚,阶跃星辰发布Step R-mini!推理模型从此不再文理偏科

阶跃星辰发布了其Step系列模型家族的首个推理模型——Step Reasoner mini(Step R-mini),标志着国内推理模型领域的一大进展。Step R-mini擅长规划、尝试和反...

清华团队靠强化学习让 7B 模型打败GPT-4o数学推理

清华大学NLP实验室联合上海AI Lab、清华大学电子系及OpenBMB社区提出了一种新的强化学习方法PRIME(Process Reinforcement through IMplicit REwards),该方...

仅用 8 张显卡和一万块钱,清华团队用7B模型打败GPT-4o数学推理

清华大学NLP实验室联合上海AI Lab、清华大学电子系及OpenBMB社区提出了一种新的结合过程奖励的强化学习方法PRIME(Process Reinforcement through IMplicit R...

强化学习之父 Rich Sutton 最新演讲:用「去中心化神经网络」应对深度学习局限性

在第六届国际分布式人工智能会议上,现代强化学习奠基人Richard S. Sutton教授提出了深度学习面临的挑战,包括灾难性遗忘、可塑性丧失和模型坍塌等现象,这些...

Anthropic联创:Scaling Law没崩,但推理成天价!有了TTT,25年AI更加速

Anthropic联合创始人Jack Clark近日发文反驳了关于AI发展已到达瓶颈的观点,他认为AI的发展还远远没有达到极限。Clark指出,OpenAI的技术秘诀并不是让模型变...
1 2 3 4 8