ElevenLabs推v3 Alpha API，支持超70种语言和无限虚拟角色-人工智能-PHP中文网

ElevenLabs推v3 Alpha API，支持超70种语言和无限虚拟角色

爱谁谁

发布： 2025-09-19 13:06:24

原创

224人浏览过

近日，全球领先的ai语音技术公司elevenlabs正式宣布推出最新的eleven v3 alpha api，为开发者带来突破性的文本转语音（text-to-speech， tts）工具。该api被誉为“地球上最具表现力的文本转语音模型”。

Eleven v3 Alpha API核心优势显著，支持超过70种语言，能生成自然、流畅且富有情感的语音输出。它引入全新的对话模式（Dialogue Mode），开发者可创建多角色对话场景，支持无限数量的虚拟角色，还能处理语气变化、情感波动以及对话中的自然中断。这一功能使其在制作多角色互动的音频内容方面表现出色，像有声书、互动游戏叙述和多媒体项目等都能适用。

此外，该API支持高级音频标签（Audio Tags）功能。开发者在脚本中插入如 [happy]、[whispering] 或 [sighs] 等标签，就能精确控制语音的语气、情感和节奏。这一技术突破让AI语音不只能“说话”，还能“表演”，为用户带来更真实、更具沉浸感的听觉体验。例如，开发者可以轻松实现从戏剧性独白到轻松幽默对话的动态语音生成。

从技术层面看，Eleven v3引入全新架构，能更深入理解文本语义，显著提升语音表现力。相比前代模型，它支持70多种语言，能处理多角色对话场景，模拟真实交谈中的语气变化、情感起伏甚至中断等自然特性。其新增的音频标签功能，让用户可直接使用类似 [sad]、[angry]、[whispers] 或 [laughs] 的标签，精确控制语音的情感表达和非语言反应，如笑声或叹息。这种细粒度的控制为创作者提供了前所未有的灵活性，尤其适用于电影配音、音频书制作和游戏语音设计。

在应用场景方面，Eleven v3 Alpha API为内容创作者和媒体工具开发者量身打造。无论是制作引人入胜的视频旁白、情感丰富的音频书，还是开发交互式媒体工具，其高表现力都能显著提升用户体验。该模型支持多达32个不同说话者的识别与区分，为多人对话场景提供强大支持，在教育、娱乐和企业级应用（如AI客服中心）中具有广泛的应用前景。

Text-To-Pokemon口袋妖怪

输入文本生成自己的Pokemon，还有各种选项来定制自己的口袋妖怪

1494

查看详情

目前，Eleven v3已进入公开Alpha测试阶段，并在特定期间提供80%的折扣，鼓励用户体验其强大功能。ElevenLabs还宣布，v3的公共API即将推出，开发者可通过联系销售团队获得早期访问权限。对于实时和对话场景，ElevenLabs建议暂时继续使用v2.5 Turbo或Flash模型，v3的实时版本也在开发中，预计将进一步拓展其应用范围。

随着AI语音技术的快速发展，ElevenLabs v3的推出加剧了行业竞争。此前，ElevenLabs凭借高精度语音克隆和文本转语音技术，已在音频书、配音和AI客服领域占据重要地位。v3的发布进一步巩固了其领先优势，尤其是在与OpenAI Whisper v3、Google Gemini2.0等模型的竞争中，v3在多语言支持和情感表达上的表现尤为突出。有用户称其为“地表最强文本转语音模型”。

ElevenLabs表示，v3只是其技术路线图中的一步，未来将持续优化模型性能，推出低延迟版本以支持实时应用，并进一步扩展语言支持和场景适配。AI语音有望随着技术的普及，成为数字内容创作的核心驱动力。

以上就是ElevenLabs推v3 Alpha API，支持超70种语言和无限虚拟角色的详细内容，更多请关注php中文网其它相关文章！