标签:多模态

LIama 4发布重夺开源第一!DeepSeek同等代码能力但参数减一半,一张H100就能跑,还有两万亿参数超大杯

在训练细节方面,Meta采用了全新的训练技术MetaP,通过设置关键模型超参数,实现了在不同批量大小、模型宽度和深度之间的良好扩展和泛化。Llama 4系列在200种...

Meta推出Llama 4:MoE构架、原生多模态、10M上下文,没有发布推理模型

Meta 创始人兼首席执行官马克·扎克伯格宣布推出全新 Llama 4 系列模型,包括两款即时可用的模型——Llama 4 Maverick 和 Llama 4 Scout,以及一款仍在训练中的...

10倍吞吐提升无损性能:多模态适用的KV cache量化策略来了,即插即用无需改原模型

多模态大语言模型在实际应用中展现出卓越性能,但其计算开销和显存占用问题仍然是关键瓶颈。KV cache机制通过显存换取计算效率,但随着输入数据规模的增大,...

GPT-4.5创造力比GPT-4o弱!浙大上海AI Lab发布新基准,寻找多模态创造力天花板

近来,GPT-4.5在创意写作、教育咨询、设计提案等任务中展现出惊人的连贯性与创造力,引发了关于多模态大模型(MLLMs)创造力天花板的讨论。现有的评测基准难...

第一个免费可用的智能Agent产品全量上线,中国公司智谱打造,推理模型比肩R1

国产AI领域迎来了一款名为「AutoGLM 沉思」的自主智能体产品,由中国公司智谱推出。这款产品不仅具备深度研究能力,还能动手操作,标志着AI技术从单纯的语言...

业界突破多模态泛化推理能力,OPPO研究院&港科广提出OThink-MR1技术

OPPO研究院与香港科技大学(广州)的研究人员提出了一项名为OThink-MR1的新技术,旨在通过动态强化学习提升多模态大模型的泛化推理能力。多模态大模型虽然能...

三星国行 Bixby 更新“语聊视界”,我们的生活离《Her》更近了一步?

三星 Galaxy S25 系列国行版本的 Bixby 语音助手于 3 月 26 日正式推出了“语聊视界”功能,这一功能基于多模态大模型,旨在提供超拟人的实时语音和视频聊天体...

7B模型搞定AI视频通话,阿里最新开源炸场,看听说写全模态打通,开发者企业免费商用

阿里发布了首个端到端全模态大模型——通义千问Qwen2.5-Omni-7B,该模型能够处理文本、音频、图像和视频等多种模态,并实时生成文本和自然语音。Qwen2.5-Omni-7...

谷歌终于登顶一次了!最强推理模型Gemini 2.5 Pro实测体验,真的有点东西

谷歌最新发布的AI模型Gemini 2.5 Pro被其CEO称为“谷歌有史以来最智能的AI模型”。该模型在多个基准测试中表现出色,尤其是在推理能力、科学和数学能力方面。在...

Uni-3DAR用自回归统一微观与宏观的3D世界,性能超扩散模型256%,推理快21.8倍

创建和理解3D结构在科学研究中具有重要意义,它不仅承载了丰富的物理与化学信息,还为解构复杂系统、进行模拟预测和跨学科创新提供了重要工具。随着AI技术的...
1 2 3 4 5 30