标签:动态分辨率

新年大礼!阿里刚开源视觉 AI Agent模型—Qwen2.5-VL

阿里巴巴最新发布了视觉多模态模型Qwen2.5-VL,该模型在图像、文本、视频的理解与识别能力上显著增强,并且具备直接作为视觉Agent自动化操作电脑和手机的独特...

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

DynRefer是一种新型的区域级多模态理解模型,由中国科学院大学LAMP实验室的研究人员开发,旨在通过模拟人类视觉认知过程,提高区域级多模态任务的识别能力。...