标签:视觉编码
滚烫Deepseek一夜刀掉英伟达4万亿,除夕开源多模态新模型:7B超越DALL-E 3和StableDiffusion
DeepSeek最近发布了新模型多模态Janus-Pro-7B,并立即开源。这一新模型在GenEval和DPG-Bench基准测试中超越了DALL-E 3和Stable Diffusion。Janus-Pro-7B基于D...
一张显卡看遍天下电影!智源联合高校开源Video-XL打破长视频理解极限,95%准确率刷爆纪录
智源研究院联合国内多所顶尖高校推出了超长视频理解大模型Video-XL,这一模型在处理小时级视频上展现了卓越的性能和泛化能力。Video-XL利用语言模型的原生能...
能精准解读X光片,开源视觉大模型Dragonfly
Together.ai最近开源了名为Dragonfly的大语言模型,该模型具有多分辨率视觉编码功能。Dragonfly设计了两个版本:Llama-3-8b-Dragonfly-v1和Llama-3-8b-Dragon...
揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD
GPT-4V的推出标志着多模态大模型研究的新篇章,它在多模态问答、推理和交互等领域展现了卓越的能力。然而,一些研究揭示了GPT-4V在基本能力上的不足,尤其是...