刚刚,Qwen3 终于发布!混合推理模式、支持MCP,成本仅DeepSeek R1三分之一,网友喊话小扎:工程师要赶紧加班了

AI-Agent21小时前发布 ai-front
85 0 0
刚刚,Qwen3 终于发布!混合推理模式、支持MCP,成本仅DeepSeek R1三分之一,网友喊话小扎:工程师要赶紧加班了

 

文章摘要


【关 键 词】 模型开源推理性能成本

阿里巴巴发布了新一代通义千问模型 Qwen3,该模型采用混合专家(MoE)架构,总参数量为 235B,但激活仅需 22B,显著降低了成本Qwen3 在性能上全面超越了 DeepSeek-R1 和 OpenAI-o1 等全球顶尖模型,成为国内首个“混合推理模型”,能够根据需求在“快思考”与“慢思考”之间灵活切换,大大节省算力消耗。在多项官方测评中,Qwen3 创下了国产模型及全球开源模型的性能新高,尤其是在奥数水平的 AIME25 测评中,以 81.5 分刷新了开源纪录。

Qwen3 的部署成本也大幅下降,仅需 4 张 H20 即可部署满血版,显存占用仅为性能相近模型的三分之一。官方推荐使用 SGLang 和 vLLM 等框架进行部署,本地使用则推荐 Ollama、LMStudio 等工具。此外,Qwen3 提供了丰富的模型版本,包括 2 款 30B、235B 的 MoE 模型和 6 款稠密模型,每款模型均在同尺寸开源模型中表现最佳。Qwen3 的 30B 参数 MoE 模型实现了 10 倍以上的性能杠杆提升,仅激活 3B 就能媲美上代 Qwen2.5-32B 模型性能。

Qwen3 系列模型采用宽松的 Apache2.0 协议开源,支持 119 多种语言,全球开发者、研究机构和企业均可免费下载并商用。个人用户可通过通义 APP 直接体验 Qwen3,夸克也即将全线接入 Qwen3。Qwen3 的混合思维模式使其能够根据任务需求进行不同程度的思考,用户可通过 API 设置“思考预算”,灵活满足不同场景对性能和成本的需求。例如,4B 模型适合手机端,8B 模型适合电脑和汽车端侧部署,32B 模型则最受企业大规模部署欢迎。

Qwen3 还增强了对智能体 Agent 的支持,优化了编码和 Agent 能力,并增强了对 MCP 的支持。在评估模型 Agent 能力的 BFCL 评测中,Qwen3 创下 70.8 的新高,超越 Gemini2.5-Pro、OpenAI-o1 等顶尖模型,大幅降低了 Agent 调用工具的门槛。Qwen3 原生支持 MCP 协议,并具备强大的工具调用能力,结合 Qwen-Agent 框架,大大降低了编码复杂性,实现了高效的手机及电脑 Agent 操作等任务。

在训练过程中,Qwen3 使用了几乎两倍于 Qwen2.5 的数据量,约 36 万亿个 token,涵盖了 119 种语言和方言。预训练过程分为三个阶段,分别提升了模型的基础语言能力、知识密集型数据的比例以及长上下文处理能力。Qwen3 的稠密基础模型整体性能已经达到了参数量更大的 Qwen2.5 基础模型的水平,在 STEM、编程和推理等领域甚至超越了更大规模的 Qwen2.5 模型。Qwen3-MoE 基础模型仅使用 10% 的激活参数,就能达到与 Qwen2.5 稠密基础模型相近的性能,显著节省了训练和推理成本。

后训练阶段,团队设计了一个四阶段的训练流程,包括长链式思维冷启动、基于推理的强化学习、思维模式融合和通用强化学习,进一步提升了模型的推理与快速响应能力。Qwen3 的后训练堆栈与 deepseek R1 极为相似,但 Qwen3 提炼出了更小的模型,使其在性能和成本上更具优势。

Qwen3 发布后,开发者们对其表现给予了高度评价。苹果机器学习研究员 Awni Hannun 表示,Qwen3 235B MoE 在 M2 Ultra 上运行非常快,生成了 580 个 token,速度约为 28 token/秒。网友 xjdr 评价 Qwen3-235B-A22B 为“非常优秀的模型”,但在任务处理中存在过度思考的趋势。尽管如此,Qwen3 的发布标志着阿里巴巴在大模型领域的进一步突破,全球下载量已超 3 亿次,Qwen 衍生模型数超 10 万个,超越了美国的 Llama。

原文和模型


【原文链接】 阅读原文 [ 2412字 | 10分钟 ]
【原文作者】 AI前线
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...