音频生成

音频,audio

阿里开源新语音模型,比OpenAI的Whisper更好!

阿里巴巴公司在Qwen-Audio的基础上推出了新一代的开源语音模型Qwen2-Audio,该模型在多个方面进行了显著的优化和改进。Qwen2-Audio模型包含基础版和指令微调...

载入历史,YC新项目屠榜Product Hunt,病毒营销玩出新高度

Wordware,一个集成开发环境(IDE)的应用搭建平台,通过自然语言编程,允许用户构建复杂的人工智能代理(AI Agent)和应用。该平台在Product Hunt上的AI产品...

GPT-4o模仿人类声音,诡异尖叫引OpenAI研究员恐慌!32页技术报告出炉

OpenAI的GPT-4o模型在经过一系列安全测试后,其语音功能因存在潜在风险而迟迟未能上线。该模型在高背景噪声环境下可能模仿用户声音,且在特定提示下可能发出...

比OpenAI的Whisper快50%,最新开源语音模型

生成式AI公司aiOla在其官网开源了一款名为Whisper-Medusa的语音模型,该模型在推理效率上相较于OpenAI的Whisper模型提升了50%。Whisper-Medusa在Whisper的基...

独家对话海外AI配音产品LipDub缔造者:我没有看到中国AI配音领域的竞争对手|钛媒体AGI

在钛媒体AGI美国特约作者Craig Smith与Monsters Aliens Robots Zombies(MARZ)联合创始人Matt Penousis的对话中,深入探讨了AI视觉与音频技术的发展及其应用...

鹅厂机器狗登Nature子刊封面:动作敏捷如真狗,能玩定向越野

腾讯的机器狗MAX登上了《Nature》子刊封面,展示了其在定向越野游戏中的卓越表现。MAX通过模仿真实动物的运动、感知和策略,实现了对真实世界中狗的模仿,能...

别只盯着ChatGPT版「Her」,在多模态AI拟人互动上,国内玩家也支棱起来了

第二届多模态情感识别挑战赛(MER24)在AI顶会IJCAI2024上成功举办,旨在推动利用文本、音视频等多模态数据进行AI情感识别的技术发展和真实人机交互场景中的...

终于来了,OpenAI测试GPT-4o高级语音模式!

OpenAI正在对GPT-4o的高级语音模式进行测试,目前仅向部分ChatGPT Plus用户开放。测试的目的是收集关于安全性和功能方面的反馈,以便在8月初发布全面的评估报...

又一新风口!空间计算时代:要么沉浸,要么死亡 | Q 福利

2024年,苹果公司发布了Vision Pro,标志着计算行为轨迹的又一次变革,类似于2007年iPhone的问世。Vision Pro引入了智能化、沉浸式的空间计算平台,使用户能...

反转了?在一场新较量中,号称替代MLP的KAN只赢一局

多层感知器(MLP)作为深度学习模型的基本组成部分,在机器学习领域具有不可替代的地位。然而,MLP存在一些局限性,如难以解释的表示和网络规模的扩展困难。K...
1 11 12 13 14 15 34