音频生成

阿里开源新语音模型，比OpenAI的Whisper更好！

阿里巴巴公司在Qwen-Audio的基础上推出了新一代的开源语音模型Qwen2-Audio，该模型在多个方面进行了显著的优化和改进。Qwen2-Audio模型包含基础版和指令微调...

AIGC动态

6个月前

Wordware，一个集成开发环境（IDE）的应用搭建平台，通过自然语言编程，允许用户构建复杂的人工智能代理（AI Agent）和应用。该平台在Product Hunt上的AI产品...

AI-Agent

6个月前

OpenAI的GPT-4o模型在经过一系列安全测试后，其语音功能因存在潜在风险而迟迟未能上线。该模型在高背景噪声环境下可能模仿用户声音，且在特定提示下可能发出...

AIGC动态

6个月前

生成式AI公司aiOla在其官网开源了一款名为Whisper-Medusa的语音模型，该模型在推理效率上相较于OpenAI的Whisper模型提升了50%。Whisper-Medusa在Whisper的基...

AIGC动态

6个月前

在钛媒体AGI美国特约作者Craig Smith与Monsters Aliens Robots Zombies（MARZ）联合创始人Matt Penousis的对话中，深入探讨了AI视觉与音频技术的发展及其应用...

AIGC动态

6个月前

腾讯的机器狗MAX登上了《Nature》子刊封面，展示了其在定向越野游戏中的卓越表现。MAX通过模仿真实动物的运动、感知和策略，实现了对真实世界中狗的模仿，能...

AIGC动态

6个月前

第二届多模态情感识别挑战赛（MER24）在AI顶会IJCAI2024上成功举办，旨在推动利用文本、音视频等多模态数据进行AI情感识别的技术发展和真实人机交互场景中的...

AIGC动态

7个月前

OpenAI正在对GPT-4o的高级语音模式进行测试，目前仅向部分ChatGPT Plus用户开放。测试的目的是收集关于安全性和功能方面的反馈，以便在8月初发布全面的评估报...

AIGC动态

7个月前

2024年，苹果公司发布了Vision Pro，标志着计算行为轨迹的又一次变革，类似于2007年iPhone的问世。Vision Pro引入了智能化、沉浸式的空间计算平台，使用户能...

AIGC动态

7个月前

多层感知器（MLP）作为深度学习模型的基本组成部分，在机器学习领域具有不可替代的地位。然而，MLP存在一些局限性，如难以解释的表示和网络规模的扩展困难。K...

AIGC动态

7个月前