讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

首页 > 新闻 > IT新闻 > 正文

阿里云推出全球首个全模态 AI 模型 Qwen3-Omni

DDD

发布： 2025-09-23 13:12:22

原创

792人浏览过

阿里云正式推出 qwen3-omni，宣告全球首个原生端到端全模态 ai 模型诞生，该模型现已全面开源。qwen3-omni 能够处理文本、图像、音频和视频等多样化输入形式，并支持实时流式输出，无论是通过文字还是自然语音交互，均可实现快速响应。

阿里云推出全球首个全模态 AI 模型 Qwen3-Omni

在多个应用场景中，Qwen3-Omni 展现出卓越的跨模态能力。其核心技术依托于早期以文本为中心的预训练策略与混合多模态训练方法，从而构建出强大的多模态理解力。尤其在音频与视频任务中表现突出，同时在文本和图像处理方面也维持了高水准。根据涵盖36项音频与视频基准测试的结果显示，Qwen3-Omni 在其中22项中达到了当前最优水平，其在自动语音识别与音频理解方面的性能已可媲美行业领先的 Gemini2.5Pro。

该模型支持多达119种文本语言，兼容19种语音输入语言以及10种语音输出语言，涵盖英语、中文、法语、德语等主流语种，具备广泛的国际化服务能力。其架构创新性地采用 MoE（专家混合）系统，并融合 AuT 预训练机制，赋予模型强大的通用表征能力。此外，多码本设计保障了音频与视频交互的低延迟特性，确保自然对话过程流畅无卡顿。

除 Qwen3-Omni 外，阿里云还发布了 Qwen3-TTS，一款支持17种音色选择的文本转语音模型。该模型在多项权威评测中超越同类产品，尤其在语音稳定性与音色还原度方面表现亮眼。

AISEO ART

AISEO ART

AISEO平台的艺术图片生成器

AISEO ART

35

AISEO ART

同期推出的还有 Qwen-Image-Edit-2509，专注于提升图像编辑能力，支持多图协同编辑，显著增强编辑结果的一致性与视觉效果。它不仅适用于单张图像修改，还能实现多图拼接与联动调整，满足复杂图像处理需求。

源码地址：点击下载

以上就是阿里云推出全球首个全模态 AI 模型 Qwen3-Omni的详细内容，更多请关注php中文网其它相关文章！

相关标签：

阿里云 ai gemini qwen 架构文本转语音

大家都在看：

从繁杂技巧到极简方案：阿里 ROLL 团队带来 RL4LLM 新实践阿里云正式发布函数计算 AgentRun 阿里通义实验室开源 Qwen-Image-i2L 通义千问保持 AI 模型领先地位，阿里云 CTO 周靖人晋升阿里合伙人 Qwen3-TTS 全面升级：49 种音色 + 10 种语言 + 9 种方言

最佳 Windows 性能的顶级免费优化软件

最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移，垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是，许多工具可以让 Windows 保持平稳运行。

来源：php中文网

上一篇：智元机器人 GO-1 通用具身基座大模型全面开源下一篇：技术赋能美学：阳光新能源iGarden七彩阳光房重新定义屋顶价值

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

谷歌将“氛围编程”工具 Opal 集成至 Gemini 网页端

2025-12-18 13:39:19
鉴于《地平线6》开发要求:《极限竞速8》将停更

2025-12-18 13:40:03
与徕卡合作升级小米17 Ultra官宣！博主称小米也要有自己的非凡大师：堆料远超友商

2025-12-18 13:41:01
《光与影：33号远征队》确认在开发过程中也使用了生成式AI

2025-12-18 13:44:03
CoSky v5.2.0 已经发布，基于 Redis 的服务治理平台

2025-12-18 13:44:13
荣耀Magic8 Mini要来了！6.3英寸小直屏+天玑9500

2025-12-18 13:45:02
Visual Studio Code 1.107 发布

2025-12-18 13:45:12
老牌劲旅的惺惺相惜！ B社支持《GTA6》延期

2025-12-18 13:45:17
3D类银河恶魔城游戏《少女与学院城》上架Steam 现已开放试玩

2025-12-18 13:50:03
《极限竞速：Motorsport》内容停更专注《极限竞速：地平线6》

2025-12-18 13:58:02

最新问题

教育部发文：试点 AI 在中小学考试的应用一学期组织一次期末考试，切实为小学生减负降低考试频率，突出考试的育人价值，推进多元化升学路径、智能化评价体系与家校社协同育人机制，方为缓解教育焦虑的治本之策。▲教育部再度出台新规，明确压缩中小学考试频次。图/ICphoto新京报社论据新京报报道，12月17日，教育部正式印发《关于进一步加强中小学日常考试管理的通知》，围绕七大方向提出20项具体措施，着力促进学生德智体美劳全面而健康地发展。文件明确：小学一、二年级不得实施纸笔考试；义务教育其他年级由学校每学期仅组织一次期末考试；初中阶段（消息发

2025-12-18 15:02:02

131

阶跃星辰 GUI Agent 全面升级：更长推理步骤、更强语义理解能力、更强泛化能力阶跃星辰正式宣布，其Step-GUI云端模型完成全面升级，并限时开放免费API接口。此次更新后的模型覆盖超200种任务场景，兼容手机、PC、车载系统等多终端平台，推理链路更长，语义理解与跨场景泛化能力显著增强。面对用户表述不明确的指令，模型可主动发起追问，精准厘清意图并高效执行任务。与此同时，阶跃星辰开源了当前性能最强的端侧GUI模型——Step-GUIEdge，并同步推出GUI-MCP协议，宣称可将AI手机的端到端部署周期压缩至仅需10分钟。API文档地址：https:/

2025-12-18 14:40:09

526

再也不用翻信找行程！Gmai推AI助理用「CC」告诉你今天行程 Google于16日宣布，将在Gmail中上线一款代号为「CC」的实验性AI助手。只要用户授权Google访问相关数据，这款由Gemini驱动的智能助理便会自动读取你的邮件内容与日程安排，并在每天清晨为你推送一封定制化的「YourDayAhead」摘要邮件，助你迅速掌握当日关键行程与待办任务。延伸阅读：ChatGPT图片AI生成迎来重大升级！文字乱码问题彻底解决，还支持原图直接编辑CC是由GoogleLabs推出的实验性AI生产力代理（productivityagent），目前尚处于早期测试阶

2025-12-18 13:54:07

514

Visual Studio Code 1.107 发布 VisualStudioCode1.107正式发布。本次版本优化了并排会话视图体验，新增了代理工作流教程，并修复了若干已知问题。核心更新亮点如下：提升了AgentSessions侧边栏的默认使用体验：新安装后，会话视图方向默认启用sideBySide模式。增强了AgentSessions中“InputNeeded”提示的显示效果与交互逻辑。新增支持在启动后台会话时自动同步当前工作区的变更内容。创建新会话时，历史输入内容与提示信息将被保留，不再清空。云会话中工具调用的详情区域默认收

2025-12-18 13:45:12

232

CoSky v5.2.0 已经发布，基于 Redis 的服务治理平台拥抱SpringBoot4，全面重构React构建的现代化控制台|CoSkyv5.2.0正式上线我们满怀喜悦地宣布：CoSkyv5.2.0正式发布！这不仅是一次常规迭代，更是一次面向未来的重大升级——全面适配最新Spring技术生态、彻底重构前端架构，并集成多项关键能力。本版本聚焦于开发者体验优化、系统性能跃升以及平台能力的深度拓展，致力于打造更高效、更稳定、更易用的服务治理解决方案。核心框架全面升级深度兼容SpringBoot4：完整支持SpringBoot

2025-12-18 13:44:13

957

谷歌将“氛围编程”工具 Opal 集成至 Gemini 网页端谷歌近日正式宣布，其“氛围编程”（vibe-coding）工具Opal已深度集成至Gemini网页版应用中。即日起，用户无需离开浏览器，即可借助Opal快速构建由AI驱动的轻量级应用，并一键将其保存为Gemini中专属的自定义智能助手——“Gems”。Gemini的Gems是谷歌于2024年推出的可定制化AI助手形态，支持按具体需求预设功能与行为逻辑，涵盖学习辅导、创意激发、职业规划、代码协作、文案润色等多种高频场景。Opal的加入，使Gems的创建过程完全基于自然

2025-12-18 13:39:19

398

重听的朋友有福了！Meta AI眼镜年度大改版让对话听得更清楚了 Meta近日为其Ray-BanMeta与OakleyMetaHSTN智能眼镜推送了v21系统更新，正式上线「ConversationFocus」（对话聚焦）功能，旨在帮助用户在餐厅、酒吧等喧闹场景中更清晰地捕捉前方对话内容；同时新增与Spotify深度联动的「视觉音乐」体验——眼镜可依据当前所见画面（如专辑封面、海报或环境影像）智能推荐并播放匹配曲目。该「对话聚焦」功能依托眼镜内置的定向麦克风阵列，精准锁定用户正前方说话者的人声信号，并通过开放式扬声器（open-earspea

2025-12-18 13:33:03

588

拥抱 Spring Boot 4，重构 React 现代化仪表盘 | CoSky v5.2.0 发布 CoSky -高性能、低成本微服务治理平台EnglishDocumentCoSky 是一个轻量级、低成本的服务注册、服务发现、配置服务SDK，通过使用现有基础设施中的Redis（相信您已

2025-12-18 13:16:03

327

Nelm 与 Helm 4 的比较：现有差异与未来规划 Helm4最近正式发布，借此契机，Flant团队将其与在werf中孵化并逐步独立的替代方案Nelm进行了深度对比。本文详细梳理了Helm4与Nelm各自引入的关键新特性，系统剖析二者在核心能力上的差异，并同步公布了Nelm的中长期演进路线图。Helm4为云原生生态带来了多项实质性升级。其中最显著的用户体验改进是全面采用Kubernetes原生的Server-SideApply（SSA）机制，取代沿用多年的3-WayMerge策略，从根本上缓解了因合并逻辑导致的

2025-12-18 13:15:07

895

苹果发布开源 AI 模型 SHARP，将单张 2D 照片快速变成 3D 场景苹果推出了名为SHARP（SharpMonocularViewSynthesis）的全新研究成果与模型，仅需一张常规二维照片，即可在亚秒级时间内生成高度逼真的三维场景视图。据悉，SHARP基于前沿的3D高斯泼溅（3DGaussianSplatting）技术，将整个场景建模为海量具备颜色与光照属性的3D高斯椭球体。该模型通过单次神经网络前向传播（feedforwardinference），直接预测出数以百万计的高斯单元的空间位置及其外观特征，从而高效构建出具备真实感的三维结构。区别于

2025-12-18 12:57:02

399

相关专题

更多>

热门推荐

开源免费商场系统

广告

热门教程

更多>

相关推荐

热门推荐

最新课程

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部