强化学习 | 学习AIGC

更长思维并不等于更强推理性能，强化学习可以很简洁

著名研究者和技术作家 Sebastian Raschka 解读了一篇来自 Wand AI 的强化学习研究，该研究分析了推理模型生成较长响应的原因。研究发现，推理模型生成较长响...

AIGC动态

3天前

强化学习带来的改进只是「噪音」？最新研究预警：冷静看待推理模型的进展

「推理」已成为语言模型的下一个主要前沿领域，学术界和工业界在探索模型推理性能提升的过程中，提出了一个核心问题：什么方法有效，什么方法无效？近期研究...

AIGC动态

4天前

魔改AlphaZero后，《我的世界》AI老玩家问世，干活不用下指令

加州大学伯克利分校的研究团队开发了一种名为AssistanceZero的新算法，旨在通过Assistance Games框架改进AI助手的训练方式。这一方法的核心在于AI助手与用户...

AIGC动态

5天前

阿里开源R1-Omni，多模态情感识别

阿里巴巴通义实验室的研究人员开源了多模态情感识别模型R1-Omni，该模型首次将强化学习与可验证奖励（RLVR）应用于多模态大模型，显著提升了情感识别任务中的...

AIGC动态

1周前

谷歌等最新研究，合成数据可将大模型数学推理提升8倍

随着大模型如ChatGPT的快速发展，对高质量训练数据的需求呈指数级增长，预计最快将在2026年耗尽现有的300万亿tokens的公开数据集。为了解决这一问题，合成数...

AIGC动态

1周前

DeepSeek前脚发新论文，奥特曼立马跟上：GPT-5就在几个月后啊

DeepSeek与清华大学合作发布了一篇名为《Inference-Time Scaling for Generalist Reward Modeling》的论文，提出了SPCT（Self-Principled Critique Tuning）...

AIGC动态

2周前

刚刚，DeepSeek公布推理时Scaling新论文，R2要来了？

DeepSeek与清华大学的研究人员提出了一种名为自我原则批评调整（SPCT）的新方法，旨在提升通用奖励模型（GRM）在推理阶段的可扩展性。该方法通过结合拒绝式微...

AIGC动态

2周前

在GSM8K上比GRPO快8倍！厦大提出CPPO，让强化学习快如闪电

DeepSeek-R1的成功依赖于一种名为GRPO（组相对策略优化）的强化学习算法。与PPO（近端策略优化）不同，GRPO直接根据组分数估计基线，从而消除了对critic模型...

AIGC动态

2周前

Agent 正在重新划分大模型竞争格局

大模型与强化学习是Agent的核心技术，决定了其自主性和执行能力。Agent作为人工智能时代的“AI Being”，能够完成从理解任务、思考推理到决策执行的全流程，区...

AI-Agent

2周前

模型调优无需标注数据！将Llama 3.3 70B直接提升到GPT-4o水平

Databricks公司推出了一种名为TAO（Test-time Adaptive Optimization）的新型模型调优方法，该方法无需标注数据即可完成大型语言模型（LLMs）的微调。TAO的核...

AIGC动态

3周前

标签：强化学习

更长思维并不等于更强推理性能，强化学习可以很简洁

强化学习带来的改进只是「噪音」？最新研究预警：冷静看待推理模型的进展

魔改AlphaZero后，《我的世界》AI老玩家问世，干活不用下指令

阿里开源R1-Omni，多模态情感识别

谷歌等最新研究，合成数据可将大模型数学推理提升8倍

DeepSeek前脚发新论文，奥特曼立马跟上：GPT-5就在几个月后啊

刚刚，DeepSeek公布推理时Scaling新论文，R2要来了？

在GSM8K上比GRPO快8倍！厦大提出CPPO，让强化学习快如闪电

Agent 正在重新划分大模型竞争格局

模型调优无需标注数据！将Llama 3.3 70B直接提升到GPT-4o水平

热门网址

标签：强化学习

Trae-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

有言AI-视频创作

热门网址