阿里通义qwen团队近日发布全新力作——qwen3-livetranslate-flash,这是一款基于大语言模型的高性能多语言实时音视频同声传译模型,具备高精度、低延迟与强鲁棒性的核心优势。
依托于Qwen3-Omni强大的基础模型能力,结合海量多模态数据及百万小时级音视频训练资源,Qwen3-LiveTranslate-Flash 成功实现了对18种主流语言的离线与实时双模式音视频翻译支持。

关键特性
性能表现
在公开中英及多语种语音翻译测试集上,Qwen3-LiveTranslate-Flash 的整体准确率显著超越当前主流模型,包括 Gemini-2.5-Flash、GPT-4o-Audio-Preview 和 Voxtral Small-24B 等。

无论是在会议、访谈、教育还是影视等多样化应用场景下,Qwen3-LiveTranslate-Flash 均展现出稳定领先的翻译能力,尤其在复杂声学环境和专业领域中表现突出。

面对背景噪音、同音异义词、专有名词识别等挑战性场景,该模型凭借多模态协同理解能力实现更精准翻译。在实时模式下,视觉信息的引入显著弥补了音频断续或模糊带来的上下文缺失问题,优势尤为明显。

以上就是Qwen3-LiveTranslate 发布:视、听、说全模态同传大模型的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号