Qwen3-Omni— 阿里通义开源的原生端到端全模态大模型-人工智能-PHP中文网

Qwen3-Omni— 阿里通义开源的原生端到端全模态大模型

DDD

发布： 2025-09-23 17:01:01

原创

525人浏览过

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

通义灵码

阿里云出品的一款基于通义大模型的智能编码辅助工具，提供代码智能生成、研发智能问答能力

查看详情

Qwen3-Omni是什么

qwen3-omni是由阿里通义实验室推出的全球首个原生端到端全模态ai 大模型，具备同时处理文本、图像、音频与视频的能力。该模型在36项音视频相关基准测试中，有22项达到sota（业界最优）水平，支持119种语言的文本交互，展现出强大的多语言能力。其响应延迟极低，纯音频对话延迟仅为211毫秒，且支持系统级提示词自定义，具备高度可控性以及内置工具调用功能。为促进技术生态发展，qwen团队已开源多个版本，包括qwen3-omni-30b-a3b-instruct、qwen3-omni-30b-a3b-thinking和qwen3-omni-30b-a3b-captioner。目前模型已在qwen chat平台开放体验。

Qwen3-Omni的主要功能

原生全模态融合：作为原生设计的全模态模型，Qwen3-Omni在预训练阶段即实现多模态统一建模，确保跨模态任务不损失性能。
卓越性能表现：在36项音频及音视频评测任务中，获得32项开源SOTA与22项整体SOTA成绩，性能超越Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe等闭源先进模型，同时在同规模级别中，图像与文本任务也达到领先水平。
广泛语言支持：支持119种语言的文本理解与生成，覆盖19种语音识别语言和10种语音合成语言，满足全球化应用需求。
极致低延迟：端到端音频对话响应延迟低至211ms，视频对话延迟控制在507ms以内，保障实时交互流畅性。
长时音频理解：可处理最长30分钟的连续音频输入，适用于会议记录、讲座转录等场景。
个性化定制能力：支持自由设置system prompt，灵活调整回复风格、角色设定等内容。
外部工具集成：具备function call能力，能够无缝对接外部API和服务，拓展应用场景。
开源音频描述模型：发布Qwen3-Omni-30B-A3B-Captioner，是一款低幻觉、高细节的通用音频caption模型，填补了开源社区在此领域的空白。

Qwen3-Omni的技术原理

Thinker-Talker双模块架构：
- Thinker模块：专注于文本语义理解与生成，接收多模态输入并输出高层语义表示，为后续语音生成提供语义基础。
- Talker模块：负责流式语音token生成，基于Thinker输出的语义信息，通过自回归方式预测多码本序列，实现高质量、低延迟的语音合成。
- MTP（Multi-Token Prediction）模块：在解码过程中同步生成当前帧的残差码本，配合Code2Wav模块将码本转化为音频波形，提升语音生成效率。
创新性架构设计：
- AuT音频编码器：依托2000万小时海量音频数据训练而成，具备强大的通用音频特征提取能力，支撑复杂音频任务处理。
- MoE混合专家结构：Thinker与Talker均采用MoE架构，实现高效并行计算与快速推理，显著增强多任务并发处理能力。
- 多码本自回归机制：Talker每步生成一个主码本，MTP模块同步输出其余残差码本，逐帧构建音频信号，优化语音生成质量与时效性。
全模态协同训练：在预训练阶段，将单模态与跨模态数据混合训练，使各模态性能接近纯单模态模型水平，同时大幅提升跨模态理解与生成能力。在语音识别与指令遵循任务上表现优异，媲美Gemini-2.5-Pro等顶尖模型，提供自然流畅的语音交互体验。
全流程流式处理：从音频编码、文本理解、语义生成到语音合成，整个流程均支持流式传输，首Token即可开始音频解码输出，确保音视频交互的实时性与连贯性。

Qwen3-Omni的性能表现

全面均衡的性能：在单模态任务中，Qwen3-Omni的表现与同规模Qwen系列专用模型相当，尤其在音频处理方面优势明显。
领先行业基准：在36项音视频评测中，取得32项开源最佳成绩，其中22项达到SOTA水平，整体性能优于Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe等主流闭源模型。