
文章摘要
【关 键 词】 多模态、检索模型、合成数据、图像检索、向量模型
智源研究院联合多所高校发布了多模态向量模型BGE-VL,该模型通过独创的MegaPairs合成数据技术,在图文检索、组合图像检索等任务中取得了显著成果。BGE-VL的发布进一步扩充了BGE系列模型的生态体系,并在多项基准测试中刷新了现有记录。MegaPairs技术结合了多模态表征模型、多模态大模型和大语言模型,能够高效挖掘多模态三元组数据,生成大规模、高质量的训练样本。相较于传统多模态数据,MegaPairs仅需1/70的数据量即可实现更优的训练效果,显著提升了多模态检索模型的性能。
在大模型时代,信息检索的需求日益多样化,用户不仅需要处理多模态查询输入,还需要从多种模态的信息中检索出最相关的内容。然而,现有的多模态检索模型通常基于单一形式的跨模态配对数据进行训练,难以处理复杂的组合模态输入。为了解决这一问题,智源BGE团队提出了MegaPairs数据合成方法,通过从现有大规模图像数据集中挖掘多样的关联图像对,并利用开源多模态大模型和大语言模型进行自动化指令生成,构建出高质量、可扩展、泛化性强的多模态检索指令微调数据集。
MegaPairs的构造过程分为两个关键步骤:首先,使用多种相似度模型从图像数据集中挖掘多样的图像对;其次,使用开源的多模态大模型和大语言模型合成开放域检索指令。通过引入多个相似度模型和两阶段标注方法,MegaPairs能够在无需人工参与的情况下,扩展性地生成大规模、高质量且多样化的多模态检索指令数据集。基于MegaPairs合成的大规模多模态检索指令数据集,智源BGE团队训练出了3款不同尺寸的多模态检索模型,包括基于CLIP架构的BGE-VL-Base和BGE-VL-Large,以及基于多模态大模型架构的BGE-VL-MLLM。
在Massive Multimodal Embedding Benchmark(MMEB)上,BGE-VL在多个任务类型和整体评分中均实现了最优性能。值得注意的是,MegaPairs并未包含MMEB中的绝大部分任务类型数据,却能够实现良好的任务泛化能力。在组合图像检索评测集CIRCO上,BGE-VL在不同模型尺寸上均显著刷新了现有基准,大幅超越包括谷歌的MagicLens系列和英伟达的MM-Embed等对比基线。BGE-VL-MLLM较之前的SOTA模型提升了8.1个百分点,而BGE-VL-Base模型以不到1/50的参数量超越了如MM-Embed和E5-V等大模型底座的多模态检索器。
团队还对MegaPairs的可扩展性和数据质量进行了深入研究。随着MegaPairs数据规模的增加,BGE-VL模型表现出一致的性能增长趋势,证明了MegaPairs数据构造方法的良好可扩展性。与在37M闭源数据上训练的SOTA模型Google MagicLens相比,MegaPairs仅需1/70的数据规模(0.5M)即可实现显著的性能优势,证明了MegaPairs数据的高效性和高质量。未来,智源将继续探索MegaPairs与更丰富的多模态检索场景结合,进一步打造更全能通用的多模态检索器。
原文和模型
【原文链接】 阅读原文 [ 2135字 | 9分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★