标签:强化学习

模型调优无需标注数据!将Llama 3.3 70B直接提升到GPT-4o水平

Databricks公司推出了一种名为TAO(Test-time Adaptive Optimization)的新型模型调优方法,该方法无需标注数据即可完成大型语言模型(LLMs)的微调。TAO的核...

业界突破多模态泛化推理能力,OPPO研究院&港科广提出OThink-MR1技术

OPPO研究院与香港科技大学(广州)的研究人员提出了一项名为OThink-MR1的新技术,旨在通过动态强化学习提升多模态大模型的泛化推理能力。多模态大模型虽然能...

ICLR 2025 Spotlight|让机器人实现“自主进化” 蚂蚁数科与清华联合提出具身协同框架BodyGen

BodyGen 框架通过结合强化学习与深度神经网络技术,实现了机器人形态与控制策略的自主协同设计,为具身智能的加速进化提供了全新的思路。该框架由蚂蚁数科与...

推理延展到真实物理世界,英伟达Cosmos-Reason1:8B具身推理表现超过OpenAI ο1

在基于物理世界的真实场景中进行视觉问答时,现有的AI模型往往无法识别出参考选项中没有最佳答案的情况。例如,当问题要求预测车辆接下来的行动时,预设选项...

田渊栋和Sergey Levine参与开发新型RL算法,能通过多轮训练让智能体学会协作推理

强化学习在提升大型语言模型(LLM)能力的同时,自身也在不断进化。现实世界中的复杂任务通常需要一系列决策,而直接优化多轮目标(如成功率)是提升智能体性...

揭秘DeepSeek R1-Zero训练方式,GRPO还有极简改进方案

DeepSeek-V3-Base 在强化学习调优之前已经展现出「顿悟时刻」,这一现象引发了研究人员对预训练特性如何影响强化学习性能的深入探讨。研究发现,DeepSeek-V3-...

强化学习也涌现?自监督RL扩展到1000层网络,机器人任务提升50倍

普林斯顿大学与华沙理工的研究表明,将对比强化学习(CRL)扩展到1000层可以显著提升性能,在某些机器人任务中性能提升高达50倍。这一发现挑战了传统观点,即...

万字探讨Agent发展真方向:模型即产品,Agent的未来要靠模型而不是Workflow

Alexander Doria,知名 AI 工程师和 Pleias 的联合创始人,近期发表了两篇文章,深入探讨了 AI 智能体的未来发展方向。他明确指出,未来的 AI 智能体将依赖于...

Atlas机器人越来越像人了!强化学习加持爬行、翻跟头、跳街舞,已安排进厂打工

波士顿动力的Atlas机器人近期展示了其最新的技术进步,标志着人形机器人领域的重要突破。从最初的液压驱动到如今的全电动AI增强版,Atlas不仅在外观和功能上...

波士顿动力真「翻」不过宇树、众擎!一觉醒来,全世界的机器人都在侧空翻

宇树机器人发布了一段视频,首次展示了人形机器人完成侧空翻的动作,引发了广泛关注。不到12小时后,波士顿动力也发布了一段视频,展示了其Atlas机器人不仅完...
1 2 3 4 14