Nova Sonic— 亚马逊推出的新型生成式 AI 语音模型

霞舞
发布: 2025-04-10 11:56:14
原创
308人浏览过

亚马逊推出全新生成式ai语音模型:nova sonic

Nova Sonic是亚马逊最新推出的生成式AI语音模型,它将语音识别和语音生成能力整合到一个模型中,能够根据说话者的语气、风格等声学环境调整生成的语音回应,实现更自然的对话体验。Nova Sonic支持多种语言,目前在美式英语和英式英语的语音识别方面表现突出,并支持多种说话风格和不同口音。其平均单词错误率低至4.2%,在多语言LibriSpeech基准测试中超越了OpenAI的GPT-4o-transcribe模型。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Nova Sonic— 亚马逊推出的新型生成式 AI 语音模型Nova Sonic核心功能:

  • 原生语音处理: 高效处理语音输入,生成流畅自然的语音输出,提升人机交互体验。
  • 高精度语音识别: 采用HiFi语音识别技术,即使在嘈杂环境或发音不清的情况下,也能准确理解用户意图。在多语言LibriSpeech基准测试中,其英语、法语、意大利语、德语和西班牙语的平均单词错误率仅为4.2%。
  • 流畅自然对话: 能够识别说话者的停顿和打断,在恰当的时机进行回应,使对话更自然流畅。
  • 实时信息获取: 智能判断何时需要从互联网获取实时信息,为用户提供最佳解决方案。
  • 灵活的请求路由: 根据上下文信息,将用户请求路由到不同的API,灵活调用互联网信息、解析专有数据源或在外部应用程序中执行操作。
  • 文本记录生成: 为用户语音生成文本记录,方便开发者在各种应用场景中使用。
  • 低延迟高性价比: 平均感知延迟仅为1.09秒,比OpenAI的GPT-4o模型更快,价格也比后者便宜约80%,是市场上极具性价比的AI语音模型之一。
  • 多语言和风格支持: 目前支持美式英语和英式英语等多种说话风格和口音,并计划扩展对更多语言和口音的支持。

Nova Sonic技术原理:

Nova Sonic基于HiFi语音识别技术,确保在各种环境下准确理解用户意图。其创新的双向流式API接口,通过亚马逊Bedrock开发者平台提供服务,实现音频输入和输出的实时双向流式传输,保证对话流畅性。

Amazon Nova
Amazon Nova

亚马逊云科技(AWS)推出的一系列生成式AI基础模型

Amazon Nova 56
查看详情 Amazon Nova

Nova Sonic项目信息:

Nova Sonic应用场景:

Nova Sonic的应用范围广泛,包括:

  • 客户服务: 构建自动化客户服务中心,提供准确解答并根据客户情绪调整回应语气。
  • 旅游: 作为虚拟旅游助手,帮助用户规划行程、预订机票酒店等。
  • 教育: 开发语言学习应用,提供实时发音反馈,提升学习者的语言能力。
  • 医疗保健: 辅助医生与患者沟通,提供医疗信息和建议。
  • 娱乐: 创建语音交互式游戏和虚拟角色,提升用户娱乐体验。

以上就是Nova Sonic— 亚马逊推出的新型生成式 AI 语音模型的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号