标签:强化学习

比DeepSeek、o1高3倍!首创无服务器强化微调,只需十几个数据点,

知名大模型训练与开发平台Predibase发布了首个端到端强化微调平台(RFT),这一平台通过奖励函数和自定义函数实现持续强化学习,无需依赖大量标注数据。与传...

240元打造擅长数学的多模态版R1,基于DeepSeek核心思想,两阶段训练提升推理能力至工业级应用标准

多模态大模型在视觉理解方面表现出色,但在深度数学推理任务上往往表现不佳,尤其是参数量较小的模型。为了解决这一问题,东南大学、香港中文大学、蚂蚁集团...

AI Agent 发展史:从 RL 驱动到大模型驱动 |AIR 2025

Manus的出现将智能体推入AI格局的前列,尽管存在争议,但其工程创新仍被视为一种护城河。在AI智能体推理与决策研讨会(AIR 2025)上,多位学术界和工业界的研...

真正的AI智能体时代即将到来,我们发现了几点「苦涩的教训」

最近,智能体(Agent)在AI领域再次成为焦点。2025年1月,OpenAI发布了名为DeepResearch的o3模型变种,专门用于网页和文档搜索。该模型通过强化学习训练,具...

字节首次公开图像生成基模技术细节!数据处理到RLHF全流程披露

字节跳动旗下的豆包大模型团队近期在 arXiv 上发布了一篇技术报告,详细介绍了其文生图模型 Seedream 2.0 的技术细节。该模型于去年 12 月上线至豆包 APP 和...

使用DeepSeek的GRPO,7B模型只需强化学习就能拿下数独

Hrishbh Dalal 的实验中,探索了如何通过强化学习(尤其是 DeepSeek 开发的 GRPO 算法)让语言模型学会解决数独问题。数独作为一种需要结构化思维、空间推理...

图灵奖的获奖者们,担心成为 AI 界的「奥本海默」

2024年图灵奖授予了安德鲁·巴托和理查德·萨顿,两位在强化学习领域做出杰出贡献的科学家。他们的研究成果为AlphaGo和ChatGPT等突破性技术奠定了基础。然而,...

阿里开源新模型:媲美DeepSeek-R1,参数大降20倍!

阿里巴巴近日开源了其最新的大模型QwQ-32B,该模型支持Apache 2.0开源协议,允许商业化使用。QwQ-32B在多个主流测试基准中表现优异,能够与DeepSeek的R1-671B...

图解 DeepSeek-R1

DeepSeek-R1 是人工智能领域的一个重要进展,特别是在机器学习研发社区中引起了广泛关注。该模型的核心特点在于其开放权重设计以及借鉴了 OpenAI O1 推理模型...

狂揽1.3亿美金!AlphaGo大神组队Gemini大牛,用RL打造超级智能,英伟达抢投

由DeepMind资深研究员Ioannis Antonoglou和Gemini核心贡献者Misha Laskin联合创立的Reflection AI,近日宣布完成1.3亿美元融资,估值达到5.55亿美元。这家初...
1 2 3 4 5 14