
文章摘要
语音模型平台Cartesia宣布获得6400万美元A轮融资,由Kleiner Perkins领投。同时,Cartesia推出了最新语音模型Sonic 2.0和Sonic Turbo,其中Sonic 2.0的语音克隆功能仅需3秒音频片段即可完成,延迟最高仅为90毫秒,是目前市场上最强大的语音模型之一。Sonic 2.0能够精准捕捉并保留说话者的口音、背景音、情感等细微特征,使克隆语音与原始声音几乎一模一样。这一功能为对语音精准度要求高的应用场景提供了有力支持。
Sonic 2.0支持15种语言,能够正确处理长文本和复杂文本,包括人名、电子邮件地址、电话号码和地址等。其强大的文本处理能力使其能够应对多语言的新闻播报、个性化语音助手等复杂语音生成需求。此外,Sonic 2.0还支持将任何语音本地化到任何语言,并提供对口音的精细控制,进一步增强了其在多语言环境中的适用性。
在应用场景方面,Sonic 2.0的适用性非常广泛。在内容创作领域,它能为创作者提供丰富多样的语音选择,帮助他们打造更具吸引力的内容,无论是视频配音、播客旁白,还是新闻、出版行业的内容朗读,都能凭借其逼真的语音效果吸引观众和读者。在客户服务领域,利用Sonic 2.0创建的AI语音智能体能够以自然、真实的语音与客户交流,提升客户满意度。在游戏行业,Sonic 2.0可以为游戏角色赋予生动逼真的语音,增强游戏的沉浸感和故事性。在医疗保健领域,其生成的语音可用于辅助医疗信息的传达和健康提醒,帮助患者建立信任。
此外,Sonic 2.0在物流自动化、招聘中的AI语音面试、内容本地化配音、无障碍信息获取等领域也能打造丰富的语音场景。Cartesia还推出了Sonic Turbo,这是市场上最快的语音生成模型之一,延迟仅为40毫秒,同样支持15种语言、多种口音和语音克隆功能。
目前,已有超过5万家企业在使用Cartesia的产品,包括Adobe和Meta等科技巨头,它们利用Sonic 2.0的低延迟和高自然度的语音生成能力来提升产品体验。Spotify和TikTok等内容平台也在探索Sonic 2.0的商业潜力,分别用于生成自然的播客语音和提供个性化的语音特效。Cartesia的联合创始人兼首席执行官表示,新的资金将用于进一步完善语音AI模型,集成语音转换器和填充编辑等新功能,并推动流媒体架构和设备推理方面的进步。未来,语音AI将变得无处不在,实时AI生成的语音将为从呼叫中心到虚拟助理等各种应用提供技术支持。
原文和模型
【原文链接】 阅读原文 [ 990字 | 4分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek-v3
【摘要评分】 ★★☆☆☆