标签:强化学习
清华大学刘知远详解DeepSeek:OpenAI引爆o1藏秘方,但R1造出原子弹也能公开方法|钛媒体AGI
清华大学刘知远副教授在CCF青年论坛直播中深入剖析了DeepSeek R1模型的技术突破与行业影响。该模型通过开源方式完整复现OpenAI o1的深度推理能力,成为全球首...
Sebastian Raschka:关于DeepSeek R1和推理模型,我有几点看法
著名AI研究者Sebastian Raschka基于DeepSeek技术报告,系统阐述了增强大语言模型推理能力的四大核心方法。_推理模型被定义为擅长处理需要多步骤中间推导的复...
拾象科技李广密:对 DeepSeek 和智能下半场的几条判断
DeepSeek R1的出现标志着AI行业的新范式转变,其开源模式和低成本特性使其超越了Meta Llama,尽管与OpenAI、Anthropic和Google等第一梯队企业相比仍有差距。D...
o3-mini数学推理暴打DeepSeek-R1?AIME 2025初赛曝数据集污染大瓜
近期,AIME 2025 I数学竞赛中大语言模型的表现引发了广泛关注。 一些顶尖模型如o3-mini和DeepSeek-R1分别取得了78%和65%的高分,而部分较小的蒸馏模型也意外...
第四届终身学习智能体会议(CoLLAs)主题征稿中
CoLLAs 2025将关注持续学习领域的核心问题,推动人工智能系统在其生命周期中不断适应和进化。会议探讨的关键主题包括终身学习的理论研究、持续学习范式(如增...
Deepseek R1可能找到了超越人类的办法
本文围绕AI发展历程,从AlphaGo到ChatGPT,再到DeepSeek R1,阐述了AI底层原理的突破及其对AGI/ASI的重要性。1. AlphaGo突破人类上限:1997年深蓝击败国际象...
DeepSeek用的GRPO占用大量内存?有人给出了些破解方法
群组相对策略优化(GRPO)作为一种在线学习算法,通过使用训练过程中由模型自身生成的数据进行迭代改进,已因其高效性和易用性成为大型语言模型强化学习中的...
Andrej Karpathy 最新视频盛赞 DeepSeek:R1 正在发现人类思考的逻辑并进行复现
近期,斯坦福大学教授李飞飞及其团队推出了S1模型,随后李飞飞的学生、OpenAI早期成员及前特斯拉AI总监发布了一段3小时长视频,详细介绍了AI大模型的进化历程...
超越DeepSeek V3!Ai2再祭开源杀器Tülu 3,强化学习打破性能瓶颈
艾伦人工智能研究所(Ai2)推出了基于强化学习的新一代开源模型Tülu 3 405B,该模型在多项关键基准测试中超越了DeepSeek v3和GPT-4o。Tülu 3 405B在标准的基...
OpenAI 推 Deep Research:复刻Google、“致敬”DeepSeek,啥也不管了就是追
OpenAI最近推出了一款名为Deep Research的AI研究助手,旨在自动化复杂的在线多步骤研究任务。这款工具是ChatGPT内嵌的增强工具,能够快速搜索、分析并整合来...