音频生成

音频,audio

刚刚,o4-mini发布!OpenAI史上最强、最智能模型

OpenAI在技术直播中发布了其最新的多模态模型o4-mini和满血版o3,这两款模型能够同时处理文本、图像和音频,并具备调用外部工具的能力。这一创新使得模型能够...

谷歌AI成功破解海豚语,海洋版ChatGPT来了!掀人类跨物种交流革命

谷歌最新推出的DolphinGemma大模型,基于30年的海豚研究数据,试图破解海豚的语言密码。这一仅有400M参数的轻量级模型能够在普通Pixel手机上运行,不仅能够识...

“字节暗示我太穷”:Seed团队1000张H100训练7B模型,发布全球首个25秒AI视频,验证视觉生成Scaling Law?

字节跳动近日发布了全球首个由AI生成的25秒视频,这一成果由Seaweed-7B模型完成。该模型参数量仅为70亿,但在核心任务上的表现超越了参数量为其两倍的主流模...

支付宝被AI调用,一句话运营小红书!国内最大MCP社区来了,开发者狂欢

国内最大的MCP中文社区正式上线,标志着AI开发门槛的进一步降低。魔搭ModelScope推出的「MCP广场」汇集了近1500款MCP服务,覆盖搜索、地图、支付、开发者工具...

免费用!阿里通义大模型上新,超逼真音视频生成SOTA!

阿里通义实验室推出的全新数字人视频生成大模型 OmniTalker,通过上传一段参考视频,能够学习并模仿视频中人物的表情、声音和说话风格。相比传统数字人生产流...

对标OpenAI,谷歌开源Agent SDK,支持MCP、A2A、5000星

谷歌在Google Cloud Next 25大会上发布了首个开源的Agent开发套件(ADK),这是继OpenAI之后,第二家大厂推出的标准化智能体SDK。ADK旨在帮助开发人员简化复...

为什么李飞飞团队经常cue通义千问?

近年来,人工智能领域的发展呈现出“更大、更多、更强”的趋势,特别是在大模型技术方面,中美两国的差距正在迅速缩小。根据斯坦福大学以人为本人工智能研究所...

a16解读AI数字人:技术基本Ready、应用层即将爆发,下一个十亿级赛道

近年来,人工智能技术在生成逼真图片、视频和声音方面取得了显著进展,逐渐通过了视觉和听觉的图灵测试。然而,2025年最令人期待的突破之一将是AI数字人(AI ...

原生多模态大模型也能强化学习,思维链长达几万字,商汤日日新V6来了

商汤推出的「日日新 SenseNova V6」大模型在多模态推理与交互能力上展现了行业领先水平。该模型通过多模态长思维链训练、全局记忆、强化学习等技术突破,显著...

AI看柯南2分钟揪真凶,商汤600B多模态MoE推理封神!交互记忆全线升级

商汤科技最新发布的第六代大模型SenseNova V6,标志着多模态大模型技术的重大突破。该模型不仅在文本、图像和视频的原生融合上实现了全面升级,还展现了强大...
1 2 3 40