语音模型平台Cartesia获6400万美元，只需3秒克隆语音

470 0 0

文章摘要

语音模型平台Cartesia宣布获得6400万美元A轮融资，由Kleiner Perkins领投。同时，Cartesia推出了最新语音模型Sonic 2.0和Sonic Turbo，其中Sonic 2.0的语音克隆功能仅需3秒音频片段即可完成，延迟最高仅为90毫秒，是目前市场上最强大的语音模型之一。Sonic 2.0能够精准捕捉并保留说话者的口音、背景音、情感等细微特征，使克隆语音与原始声音几乎一模一样。这一功能为对语音精准度要求高的应用场景提供了有力支持。

Sonic 2.0支持15种语言，能够正确处理长文本和复杂文本，包括人名、电子邮件地址、电话号码和地址等。其强大的文本处理能力使其能够应对多语言的新闻播报、个性化语音助手等复杂语音生成需求。此外，Sonic 2.0还支持将任何语音本地化到任何语言，并提供对口音的精细控制，进一步增强了其在多语言环境中的适用性。

在应用场景方面，Sonic 2.0的适用性非常广泛。在内容创作领域，它能为创作者提供丰富多样的语音选择，帮助他们打造更具吸引力的内容，无论是视频配音、播客旁白，还是新闻、出版行业的内容朗读，都能凭借其逼真的语音效果吸引观众和读者。在客户服务领域，利用Sonic 2.0创建的AI语音智能体能够以自然、真实的语音与客户交流，提升客户满意度。在游戏行业，Sonic 2.0可以为游戏角色赋予生动逼真的语音，增强游戏的沉浸感和故事性。在医疗保健领域，其生成的语音可用于辅助医疗信息的传达和健康提醒，帮助患者建立信任。

此外，Sonic 2.0在物流自动化、招聘中的AI语音面试、内容本地化配音、无障碍信息获取等领域也能打造丰富的语音场景。Cartesia还推出了Sonic Turbo，这是市场上最快的语音生成模型之一，延迟仅为40毫秒，同样支持15种语言、多种口音和语音克隆功能。

目前，已有超过5万家企业在使用Cartesia的产品，包括Adobe和Meta等科技巨头，它们利用Sonic 2.0的低延迟和高自然度的语音生成能力来提升产品体验。Spotify和TikTok等内容平台也在探索Sonic 2.0的商业潜力，分别用于生成自然的播客语音和提供个性化的语音特效。Cartesia的联合创始人兼首席执行官表示，新的资金将用于进一步完善语音AI模型，集成语音转换器和填充编辑等新功能，并推动流媒体架构和设备推理方面的进步。未来，语音AI将变得无处不在，实时AI生成的语音将为从呼叫中心到虚拟助理等各种应用提供技术支持。