
阿里通义Qwen团队近日发布了一款开源的Python命令行工具——Qwen3-ASR-Toolkit,旨在突破Qwen3-ASR-Flash API对音频时长限制在3分钟内的瓶颈,支持对小时级音视频内容进行高效转录。
作为通义千问系列最新推出的语音识别模型,Qwen3-ASR-Flash依托强大的Qwen3基座模型,结合海量多模态数据及高达千万小时级别的ASR训练数据,具备卓越的语音理解能力。
新推出的Qwen3-ASR-Toolkit集成了VAD(Voice Activity Detection)智能静音检测与切分技术,在精准分割音频的同时保障语义句子的完整性;工具可自动将任意采样率的输入音频转换为16 kHz单声道格式,适配模型输入要求;并通过多线程并发上传音频片段,大幅提升整体处理速度。
该工具基于FFmpeg构建,广泛兼容多种媒体格式,包括mp4、mov、mkv、mp3、wav、m4a等,几乎覆盖主流音视频文件类型。
立即学习“Python免费学习笔记(深入)”;
项目已完全开源,地址:https://www.php.cn/link/51e706f8b33d4020dbe481ae37603842
以上就是阿里通义开源 Qwen3-ASR-Toolkit,音视频转录 Python 命令行工具的详细内容,更多请关注php中文网其它相关文章!
 
                        
                        每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
 
                Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号