阿里云今日正式发布并开源了其全新的 qwen3-omni、qwen3-tts,以及对标谷歌 nano banana 图像编辑工具的 qwen-image-edit-2509。

其中,Qwen3-Omni 作为业界首个原生端到端全模态 AI 模型,能够同时处理文本、图像、音频和视频等多种输入类型,并支持通过文本或自然语音进行实时流式输出,有效解决了传统多模态模型在不同能力间难以兼顾的难题。该模型基于“思考者–表达者”双轨架构设计,结合 MoE(专家混合)结构与 AuT 预训练机制,实现高效的跨模态理解与低延迟交互,适用于复杂的多模态任务和实时对话场景。










