突发!DeepSeek除夕搞炸裂,开源多模态AI模型发布,仅128颗英伟达A100训练1周,性能碾压美国企业|钛媒体AGI
![突发!DeepSeek除夕搞炸裂,开源多模态AI模型发布,仅128颗英伟达A100训练1周,性能碾压美国企业|钛媒体AGI](https://www.xuexiaigc.com/wp-content/uploads/article-images/7e8b509c41df08d1ce.jpeg)
文章摘要
【关 键 词】 人工智能、开源模型、多模态、性能超越、图像理解
DeepSeek在人工智能领域取得了重大突破,发布了开源多模态人工智能模型Janus-Pro,该模型包含10亿和70亿参数规模的版本。Janus-Pro-7B在GenEval和DPG-Bench基准测试中超越了OpenAI的DALL-E 3和Stable Diffusion,展现了其卓越的性能。Janus-Pro模型结合了图像理解和生成能力,分为1.5B和7B两个版本,而GPT-4o的图片生成多模态模型尚未开放。
Janus-Pro的前身Janus模型于2024年推出,是一个统一理解和生成的开源多模态模型,基于DeepSeek-LLM-1.3b-base构建,使用SigLIP-L作为视觉编码器。2024年11月,JanusFlow发布,这是一个将图像理解和生成统一到一个模型中的新型统一模型。2025年初,Janus升级为Janus-Pro,采用新颖的自回归框架,将视觉编码解耦,以实现多模态理解和生成。
Janus-Pro的架构与Janus相同,核心设计原理是将视觉编码解析,以进行多模式的理解和生成。模型使用siglip编码器从图像中提取高维语义特征,并使用VQ令牌将图像转换为离散ID。这些特征序列被送入LLM进行处理,Janus-Pro超越了之前的统一模型,达到或超过了特定任务模型的性能。
Janus-Pro的训练过程在1.5B/7B模型的16/32个节点的集群上进行,每个节点配备8个Nvidia A100 (40GB) GPU。在多个基准测试中,Janus-Pro展现了卓越的多模态理解能力和文本到图像的指令跟踪性能。Janus-Pro-7B在多模态理解基准MMBench上取得了79.2的分数,超越了其他最先进的统一多模态模型。在文本到图像指令跟踪排行榜GenEval中,Janus-Pro-7B得分为0.80,优于Janus、DALL-E 3和Stable Diffusion 3 Medium。
Janus-Pro的代码已在GitHub上公开,DeepSeek期待未来能带来更优异的多模态功能和表现。同时,DeepSeek已限制新用户注册,以应对线上服务受到的大规模恶意攻击,暂时限制了+86手机号以外的注册方式。
原文和模型
【原文链接】 阅读原文 [ 1425字 | 6分钟 ]
【原文作者】 钛媒体AGI
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆