阿里巴巴通义实验室推出了全新的端到端语音识别大模型 funaudio-asr。该模型引入创新的 context 模块,显著提升了在高噪声环境下的识别稳定性,将幻觉率从 78.5% 大幅下降至 10.7%,降幅接近 70%。
FunAudio-ASR 基于数千万小时的真实音频数据训练而成,并深度融合了大语言模型的语义理解能力,在远场、嘈杂背景及多说话人等复杂场景中表现出色,性能超越 Seed-ASR、KimiAudio-8B 等当前主流系统。

为满足不同应用场景需求,团队还推出了轻量版模型 FunAudio-ASR-nano。该版本在保证较高识别精度的同时,大幅降低计算资源消耗,适用于对算力和成本敏感的终端部署场景。
两个版本均支持低延迟流式语音识别、中英文自动切换以及用户自定义热词功能,具备良好的实用性与灵活性。目前,该技术已成功应用于钉钉“AI 听记”、视频会议系统以及 DingTalk A1 硬件设备中。其开放 API 也已在阿里云百炼平台正式上线,供开发者调用。
体验地址:https://www.php.cn/link/1a79e60cce2641f20b34acb72cd287d7
技术报告:https://www.php.cn/link/e340862bc3c1549012646f7abdc2e155
以上就是阿里通义实验室发布端到端语音识别大模型 FunAudio-ASR的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号