视觉编码 | 学习AIGC

对话Memories.ai：“人的记忆本质上是视觉，AI也该如此”

Memories.ai公司由前Meta研究员Shawn Shen和Ben Zhou创立，专注于开发大型视觉记忆模型（LVMM）。其核心技术创新在于将原始视频转换为设备上的结构化内存，通...

AIGC动态

4周前

DeepSeek 团队真是鬼才啊。

DeepSeek团队开源了3B参数的DeepSeek-OCR模型及相关论文，提出通过视觉模态压缩文本信息以解决大语言模型的长上下文挑战。传统Transformer架构在处理超长文本...

AIGC动态

2个月前

全新开源的DeepSeek-OCR，可能是最近最惊喜的模型。

DeepSeek团队最新发布的DeepSeek-OCR模型突破了传统OCR的局限，将文字识别与结构化信息生成结合，实现了从图片到可编辑Markdown文档的端到端转换。该模型不仅...

AIGC动态

2个月前

滚烫Deepseek一夜刀掉英伟达4万亿，除夕开源多模态新模型：7B超越DALL-E 3和StableDiffusion

DeepSeek最近发布了新模型多模态Janus-Pro-7B，并立即开源。这一新模型在GenEval和DPG-Bench基准测试中超越了DALL-E 3和Stable Diffusion。Janus-Pro-7B基于D...

AI-Agent

11个月前

一张显卡看遍天下电影！智源联合高校开源Video-XL打破长视频理解极限，95%准确率刷爆纪录

智源研究院联合国内多所顶尖高校推出了超长视频理解大模型Video-XL，这一模型在处理小时级视频上展现了卓越的性能和泛化能力。Video-XL利用语言模型的原生能...

AIGC动态

1年前 (2024)

能精准解读X光片，开源视觉大模型Dragonfly

Together.ai最近开源了名为Dragonfly的大语言模型，该模型具有多分辨率视觉编码功能。Dragonfly设计了两个版本：Llama-3-8b-Dragonfly-v1和Llama-3-8b-Dragon...

AIGC动态

2年前 (2024)

揭秘AI幻觉：GPT-4V存在视觉编码漏洞，清华联合NUS提出LLaVA-UHD

GPT-4V的推出标志着多模态大模型研究的新篇章，它在多模态问答、推理和交互等领域展现了卓越的能力。然而，一些研究揭示了GPT-4V在基本能力上的不足，尤其是...

AIGC动态

2年前 (2024)

标签：视觉编码

对话Memories.ai：“人的记忆本质上是视觉，AI也该如此”

DeepSeek 团队真是鬼才啊。

全新开源的DeepSeek-OCR，可能是最近最惊喜的模型。

滚烫Deepseek一夜刀掉英伟达4万亿，除夕开源多模态新模型：7B超越DALL-E 3和StableDiffusion

一张显卡看遍天下电影！智源联合高校开源Video-XL打破长视频理解极限，95%准确率刷爆纪录

能精准解读X光片，开源视觉大模型Dragonfly

揭秘AI幻觉：GPT-4V存在视觉编码漏洞，清华联合NUS提出LLaVA-UHD

热门网址

标签：视觉编码

对话Memories.ai：“人的记忆本质上是视觉，AI也该如此”

DeepSeek 团队真是鬼才啊。

全新开源的DeepSeek-OCR，可能是最近最惊喜的模型。

滚烫Deepseek一夜刀掉英伟达4万亿，除夕开源多模态新模型：7B超越DALL-E 3和StableDiffusion

一张显卡看遍天下电影！智源联合高校开源Video-XL打破长视频理解极限，95%准确率刷爆纪录

能精准解读X光片，开源视觉大模型Dragonfly

揭秘AI幻觉：GPT-4V存在视觉编码漏洞，清华联合NUS提出LLaVA-UHD

Trae-AI IDE

讯飞星辰

讯飞文书-办公助手

有言AI-视频创作

热门网址