突发!DeepSeek除夕搞炸裂,开源多模态AI模型发布,仅128颗英伟达A100训练1周,性能碾压美国企业|钛媒体AGI

突发!DeepSeek除夕搞炸裂,开源多模态AI模型发布,仅128颗英伟达A100训练1周,性能碾压美国企业|钛媒体AGI

 

文章摘要


【关 键 词】 人工智能开源模型多模态性能超越图像理解

DeepSeek在人工智能领域取得了重大突破,发布了开源多模态人工智能模型Janus-Pro,该模型包含10亿和70亿参数规模的版本。Janus-Pro-7B在GenEval和DPG-Bench基准测试中超越了OpenAI的DALL-E 3和Stable Diffusion,展现了其卓越的性能。Janus-Pro模型结合了图像理解和生成能力,分为1.5B和7B两个版本,而GPT-4o的图片生成多模态模型尚未开放。

Janus-Pro的前身Janus模型于2024年推出,是一个统一理解和生成的开源多模态模型,基于DeepSeek-LLM-1.3b-base构建,使用SigLIP-L作为视觉编码器。2024年11月,JanusFlow发布,这是一个将图像理解和生成统一到一个模型中的新型统一模型。2025年初,Janus升级为Janus-Pro,采用新颖的自回归框架,将视觉编码解耦,以实现多模态理解和生成。

Janus-Pro的架构与Janus相同,核心设计原理是将视觉编码解析,以进行多模式的理解和生成。模型使用siglip编码器从图像中提取高维语义特征,并使用VQ令牌将图像转换为离散ID。这些特征序列被送入LLM进行处理,Janus-Pro超越了之前的统一模型,达到或超过了特定任务模型的性能。

Janus-Pro的训练过程在1.5B/7B模型的16/32个节点的集群上进行,每个节点配备8个Nvidia A100 (40GB) GPU。在多个基准测试中,Janus-Pro展现了卓越的多模态理解能力和文本到图像的指令跟踪性能。Janus-Pro-7B在多模态理解基准MMBench上取得了79.2的分数,超越了其他最先进的统一多模态模型。在文本到图像指令跟踪排行榜GenEval中,Janus-Pro-7B得分为0.80,优于Janus、DALL-E 3和Stable Diffusion 3 Medium。

Janus-Pro的代码已在GitHub上公开,DeepSeek期待未来能带来更优异的多模态功能和表现。同时,DeepSeek已限制新用户注册,以应对线上服务受到的大规模恶意攻击,暂时限制了+86手机号以外的注册方式。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 1425字 | 6分钟 ]
【原文作者】 钛媒体AGI
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...