Nova Sonic— 亚马逊推出的新型生成式 AI 语音模型-人工智能-PHP中文网

Nova Sonic— 亚马逊推出的新型生成式 AI 语音模型

霞舞

发布： 2025-04-10 11:56:14

原创

308人浏览过

亚马逊推出全新生成式ai语音模型：nova sonic

Nova Sonic是亚马逊最新推出的生成式AI语音模型，它将语音识别和语音生成能力整合到一个模型中，能够根据说话者的语气、风格等声学环境调整生成的语音回应，实现更自然的对话体验。Nova Sonic支持多种语言，目前在美式英语和英式英语的语音识别方面表现突出，并支持多种说话风格和不同口音。其平均单词错误率低至4.2%，在多语言LibriSpeech基准测试中超越了OpenAI的GPT-4o-transcribe模型。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Nova Sonic— 亚马逊推出的新型生成式 AI 语音模型 Nova Sonic核心功能：

原生语音处理: 高效处理语音输入，生成流畅自然的语音输出，提升人机交互体验。
高精度语音识别: 采用HiFi语音识别技术，即使在嘈杂环境或发音不清的情况下，也能准确理解用户意图。在多语言LibriSpeech基准测试中，其英语、法语、意大利语、德语和西班牙语的平均单词错误率仅为4.2%。
流畅自然对话: 能够识别说话者的停顿和打断，在恰当的时机进行回应，使对话更自然流畅。
实时信息获取: 智能判断何时需要从互联网获取实时信息，为用户提供最佳解决方案。
灵活的请求路由: 根据上下文信息，将用户请求路由到不同的API，灵活调用互联网信息、解析专有数据源或在外部应用程序中执行操作。
文本记录生成: 为用户语音生成文本记录，方便开发者在各种应用场景中使用。
低延迟高性价比: 平均感知延迟仅为1.09秒，比OpenAI的GPT-4o模型更快，价格也比后者便宜约80%，是市场上极具性价比的AI语音模型之一。
多语言和风格支持: 目前支持美式英语和英式英语等多种说话风格和口音，并计划扩展对更多语言和口音的支持。