强化学习 | 第 3 页

比DeepSeek、o1高3倍！首创无服务器强化微调，只需十几个数据点，

知名大模型训练与开发平台Predibase发布了首个端到端强化微调平台（RFT），这一平台通过奖励函数和自定义函数实现持续强化学习，无需依赖大量标注数据。与传...

AIGC动态

1个月前

240元打造擅长数学的多模态版R1，基于DeepSeek核心思想，两阶段训练提升推理能力至工业级应用标准

多模态大模型在视觉理解方面表现出色，但在深度数学推理任务上往往表现不佳，尤其是参数量较小的模型。为了解决这一问题，东南大学、香港中文大学、蚂蚁集团...

AIGC动态

1个月前

AI Agent 发展史：从 RL 驱动到大模型驱动｜AIR 2025

Manus的出现将智能体推入AI格局的前列，尽管存在争议，但其工程创新仍被视为一种护城河。在AI智能体推理与决策研讨会（AIR 2025）上，多位学术界和工业界的研...

AI-Agent

1个月前

真正的AI智能体时代即将到来，我们发现了几点「苦涩的教训」

最近，智能体（Agent）在AI领域再次成为焦点。2025年1月，OpenAI发布了名为DeepResearch的o3模型变种，专门用于网页和文档搜索。该模型通过强化学习训练，具...

AI-Agent

1个月前

字节首次公开图像生成基模技术细节！数据处理到RLHF全流程披露

字节跳动旗下的豆包大模型团队近期在 arXiv 上发布了一篇技术报告，详细介绍了其文生图模型 Seedream 2.0 的技术细节。该模型于去年 12 月上线至豆包 APP 和...

AIGC动态

1个月前

使用DeepSeek的GRPO，7B模型只需强化学习就能拿下数独

Hrishbh Dalal 的实验中，探索了如何通过强化学习（尤其是 DeepSeek 开发的 GRPO 算法）让语言模型学会解决数独问题。数独作为一种需要结构化思维、空间推理...

AIGC动态

1个月前

图灵奖的获奖者们，担心成为 AI 界的「奥本海默」

2024年图灵奖授予了安德鲁·巴托和理查德·萨顿，两位在强化学习领域做出杰出贡献的科学家。他们的研究成果为AlphaGo和ChatGPT等突破性技术奠定了基础。然而，...

AIGC动态

1个月前

阿里开源新模型：媲美DeepSeek-R1，参数大降20倍！

阿里巴巴近日开源了其最新的大模型QwQ-32B，该模型支持Apache 2.0开源协议，允许商业化使用。QwQ-32B在多个主流测试基准中表现优异，能够与DeepSeek的R1-671B...

AI-Agent

1个月前

图解 DeepSeek-R1

DeepSeek-R1 是人工智能领域的一个重要进展，特别是在机器学习研发社区中引起了广泛关注。该模型的核心特点在于其开放权重设计以及借鉴了 OpenAI O1 推理模型...

AIGC动态

1个月前

狂揽1.3亿美金！AlphaGo大神组队Gemini大牛，用RL打造超级智能，英伟达抢投

由DeepMind资深研究员Ioannis Antonoglou和Gemini核心贡献者Misha Laskin联合创立的Reflection AI，近日宣布完成1.3亿美元融资，估值达到5.55亿美元。这家初...

AIGC动态

1个月前

标签：强化学习

比DeepSeek、o1高3倍！首创无服务器强化微调，只需十几个数据点，

240元打造擅长数学的多模态版R1，基于DeepSeek核心思想，两阶段训练提升推理能力至工业级应用标准

AI Agent 发展史：从 RL 驱动到大模型驱动｜AIR 2025

真正的AI智能体时代即将到来，我们发现了几点「苦涩的教训」

字节首次公开图像生成基模技术细节！数据处理到RLHF全流程披露

使用DeepSeek的GRPO，7B模型只需强化学习就能拿下数独

图灵奖的获奖者们，担心成为 AI 界的「奥本海默」

阿里开源新模型：媲美DeepSeek-R1，参数大降20倍！

图解 DeepSeek-R1

狂揽1.3亿美金！AlphaGo大神组队Gemini大牛，用RL打造超级智能，英伟达抢投

热门网址

标签：强化学习

Trae-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

有言AI-视频创作

热门网址