突发！DeepSeek除夕搞炸裂，开源多模态AI模型发布，仅128颗英伟达A100训练1周，性能碾压美国企业｜钛媒体AGI

588 0 0

文章摘要

DeepSeek在人工智能领域取得了重大突破，发布了开源多模态人工智能模型Janus-Pro，该模型包含10亿和70亿参数规模的版本。Janus-Pro-7B在GenEval和DPG-Bench基准测试中超越了OpenAI的DALL-E 3和Stable Diffusion，展现了其卓越的性能。Janus-Pro模型结合了图像理解和生成能力，分为1.5B和7B两个版本，而GPT-4o的图片生成多模态模型尚未开放。

Janus-Pro的前身Janus模型于2024年推出，是一个统一理解和生成的开源多模态模型，基于DeepSeek-LLM-1.3b-base构建，使用SigLIP-L作为视觉编码器。2024年11月，JanusFlow发布，这是一个将图像理解和生成统一到一个模型中的新型统一模型。2025年初，Janus升级为Janus-Pro，采用新颖的自回归框架，将视觉编码解耦，以实现多模态理解和生成。

Janus-Pro的架构与Janus相同，核心设计原理是将视觉编码解析，以进行多模式的理解和生成。模型使用siglip编码器从图像中提取高维语义特征，并使用VQ令牌将图像转换为离散ID。这些特征序列被送入LLM进行处理，Janus-Pro超越了之前的统一模型，达到或超过了特定任务模型的性能。

Janus-Pro的训练过程在1.5B/7B模型的16/32个节点的集群上进行，每个节点配备8个Nvidia A100 (40GB) GPU。在多个基准测试中，Janus-Pro展现了卓越的多模态理解能力和文本到图像的指令跟踪性能。Janus-Pro-7B在多模态理解基准MMBench上取得了79.2的分数，超越了其他最先进的统一多模态模型。在文本到图像指令跟踪排行榜GenEval中，Janus-Pro-7B得分为0.80，优于Janus、DALL-E 3和Stable Diffusion 3 Medium。

Janus-Pro的代码已在GitHub上公开，DeepSeek期待未来能带来更优异的多模态功能和表现。同时，DeepSeek已限制新用户注册，以应对线上服务受到的大规模恶意攻击，暂时限制了+86手机号以外的注册方式。