阿里通义 Qwen3 上线 ,开源大军再添一名猛将

文章摘要
阿里新一代通义千问开源模型 Qwen3 于4月29日正式上线,用户可通过通义App和网页版体验其强大的智能能力。Qwen3 包含8款不同尺寸的模型,均为全新的“混合推理模型”,在智能水平大幅提升的同时,也显著降低了算力消耗。其中,旗舰模型 Qwen3-235B-A22B 是一款混合专家(MoE)模型,创下了国产模型及全球开源模型的性能新高,在代码、数学、通用能力等基准测试中表现优异,直逼 DeepSeek-R1、Grok-3 和 Gemini-2.5-Pro 等顶级模型。此外,小型 MoE 模型 Qwen3-30B-A3B 的激活参数数量仅为 QwQ-32B 的10%,但表现更胜一筹。Qwen3-32B 则是一款稠密(Dense)模型,部署成本低且稳定高效,成为企业部署的首选。
Qwen3 支持两种思考模式:深入思考和快速思考。深入思考模式适用于需要逐步推理的复杂问题,而快速思考模式则提供近乎即时的响应,适用于对速度要求较高的简单任务。用户可以根据任务需求灵活选择思考模式,从而实现成本效益与推理质量之间的平衡。此外,Qwen3 还支持119种语言和方言,进一步扩展了其应用范围。
在预训练方面,Qwen3 实现了三重升级:数据增强、阶段训练和性能突破。预训练语料规模达到36万亿token,是Qwen2.5的两倍,覆盖119种语言。预训练过程分为三个阶段:基础训练、知识强化和长文本适应,分别建立了模型的基础能力、提升了STEM/编程/推理数据的占比,并优化了长文本处理能力。后训练方面,通义实施了一个四阶段的训练流程,包括长思维链冷启动、长思维链强化学习、思维模式融合和通用强化学习,进一步增强了模型的推理能力和通用性。
Qwen3 在工具调用方面同样表现出色,Qwen-Agent 内部封装了工具调用模板和解析器,降低了代码复杂性。此次发布的亮点在于“双模推理”技术,允许用户在深度推理的思考模式与及时响应的非思考模式间自由切换,并提供计算资源动态分配接口,为不同场景需求提供精准算力支持。未来,通义团队计划从扩展数据规模、增加模型大小、延长上下文长度、拓宽模态范围等方面进一步提升模型性能,逐步从训练模型的时代过渡到训练Agent的时代。
原文和模型
【原文链接】 阅读原文 [ 1493字 | 6分钟 ]
【原文作者】 AI科技评论
【摘要模型】 deepseek-v3
【摘要评分】 ★★☆☆☆