刚刚,谷歌用更少参数打败 Qwen 2.5-32B!新模型 Gemma 3 号称“单 GPU 模型王”,团队紧急招兵买马!

AIGC动态2天前发布 ai-front
220 0 0
刚刚,谷歌用更少参数打败 Qwen 2.5-32B!新模型 Gemma 3 号称“单 GPU 模型王”,团队紧急招兵买马!

 

文章摘要


【关 键 词】 AI模型谷歌开源小模型性能优化

谷歌近日发布了Gemma 3,这是一组轻量级的开源AI模型,旨在减少能源消耗和成本,同时提供高性能的推理能力。Gemma 3基于与Gemini 2.0相同的研究和技术构建,支持超过35种语言,并具备分析文本、图像及短视频的能力。该模型提供了不同规模的版本,从10亿参数到270亿参数,开发者可以根据硬件条件和性能需求选择合适的模型。

Gemma 3在单GPU主机上的性能表现超越了Facebook的Llama、DeepSeek和OpenAI等竞争对手。在Chatbot Arena Elo分数测试中,Gemma 3 27B排名第二,仅次于DeepSeek-R1。该模型还支持140种语言,提供了128k token的上下文窗口,并引入了官方量化版本,以减少模型大小和计算需求。

在架构上,Gemma 3通过增加局部注意力层的比例和缩短局部注意力的跨度,缓解了长上下文时KV缓存爆炸的问题。预训练方面,Gemma 3采用了与Gemini 2.0相同的SentencePiece分词器,并重新设计了数据混合策略,以提升模型的多语言能力和图像理解能力。

Gemma 3与Hugging Face Transformers、Ollama、JAX、Keras、PyTorch等开发者工具集成,用户可以通过Google AI Studio、Hugging Face或Kaggle访问该模型。谷歌还发布了一份长达26页的技术报告,深入阐述了Gemma 3的性能优势。

Gemma 3的发布引发了广泛关注,尤其是在Hacker News和Reddit等平台上。有开发者对谷歌的技术创新表示感谢,并强调了开放模型对社区评审和客户安全的重要性。谷歌Gemma团队成员alekandreev在Hacker News上回答了关于模型大小和训练方法的问题,表示选择模型大小并非精确科学,而是根据设备类别和性能需求来确定。

自2024年2月首次发布Gemma以来,外界对小型语言模型的兴趣与日俱增。其他小型模型如微软的Phi-4和Mistral Small 3的出现,表明企业希望使用与大语言模型一样强大的模型构建应用程序,但不一定能充分利用大语言模型的全部功能。蒸馏工艺作为一种将大型模型的知识转移到小型模型的技术,正逐渐成为企业优化AI部署的重要手段。

Gemma 3的发布标志着小型模型和蒸馏工艺在AI领域的兴起,企业开始意识到并非所有应用场景都需要大语言模型的全部功能。通过蒸馏,企业可以创建更小、更高效的模型版本,同时保留原始模型的性能。然而,值得注意的是,Gemma并非Gemini 2.0的蒸馏版本,而是基于相同的数据集和架构独立训练的。

总的来说,Gemma 3的发布为开发者提供了更灵活、高效的AI模型选择,同时也推动了小型模型和蒸馏工艺在AI领域的应用和发展。

原文和模型


【原文链接】 阅读原文 [ 3194字 | 13分钟 ]
【原文作者】 AI前线
【摘要模型】 deepseek/deepseek-v3/community
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...