inworld ai 正式发布全新语音合成模型 inworld tts-1.5,官方宣称其为当前业界延迟最低、音质最优的实时语音 ai 解决方案。
据官方披露,TTS-1.5 Max 的 P90 首字响应延迟控制在 250 毫秒以内,而更轻量的 TTS-1.5 Mini 则进一步压缩至 130 毫秒以下——较前代提速达 4 倍。尤为关键的是,Max 版本在维持超低延迟的同时,实现了过去仅能在高延迟场景下达成的音频保真度;其推理速度已逼近 Mini 版本,却能输出更具层次感与情绪张力的人声表现。

升级后的 TTS-1.5 在语音表现力方面提升 30%,词级错误率下降 40%,并显著缓解了幻听(hallucination)、断句卡顿及音色失真等常见问题。最终生成语音高度拟人:情感表达自然细腻,语境理解精准稳定,听感几近真人发声。
多语言能力同步增强,支持语种已扩展至 15 种。成本优势同样突出——相较主流竞品,单位算力成本降低逾 25 倍。其中,TTS-1.5 Mini 单分钟调用费用仅为 0.005 美元,TTS-1.5 Max 也仅需 0.01 美元/分钟。

TTS-1.5 Max 覆盖绝大多数交互场景需求,而 TTS-1.5 Mini 则专为对端到端延迟极度敏感的应用(如实时对话、游戏 NPC 语音)深度优化。









