通义万相2.5发布！实现音画同步，视频创作门槛大降！-人工智能-PHP中文网

通义万相2.5发布！实现音画同步，视频创作门槛大降！

爱谁谁

发布： 2025-09-28 11:12:10

原创

1000人浏览过

近日，在2025杭州云栖大会上，阿里正式推出通义万相wan2.5 preview系列模型。该系列涵盖文生视频、图生视频、文生图以及图像编辑四大核心功能，全面拓展aigc视觉创作边界。

其中，通义万相2.5的视频生成能力尤为突出，首次实现音画同步生成——可自动匹配人声、环境音效与背景音乐（BGM），显著提升视频沉浸感和表现力，大幅降低电影级内容创作门槛。即日起，用户可通过阿里云百炼平台调用API，或直接访问通义万相官网体验最新功能。

此次发布的通义万相2.5在多项关键指标上实现跃升。

视频生成时长由原先的5秒延长至10秒，支持更完整的情节表达与叙事结构。模型可输出24帧/秒的1080P高清视频，画质细腻稳定，满足专业级视觉需求。同时，指令理解能力显著增强，能精准响应复杂、连续的操作指令。

在视频生成过程中，模型可准确执行运镜控制等高级指令；在图像编辑场景中，只需一句话即可完成人物变身、风格迁移等操作，极大简化创作流程。相比以往版本，通义万相2.5在技术架构层面迎来重大革新。

它采用原生多模态架构设计，统一框架下支持理解与生成双重任务，兼容文本、图像、视频、音频等多种输入输出形式，真正实现跨模态协同。用户仅需输入提示词，即可一键生成与画面高度契合的人声、音效和配乐，甚至能根据人物口型动态匹配语音节奏，带来更真实的视听体验。此外，模型还支持以一段音频为参考，驱动图文内容生成音画同步的视频内容。

例如，当输入一段关于“男子在街头滑板并完成空中翻转”的详细描述时，通义万相2.5不仅能准确还原动作细节、光影变化和拍摄视角，还能同步生成对应的脚步声、滑板滚动声及动感背景音乐，所有音效均与画面节奏严丝合缝。

本次升级也大幅强化了图像生成能力，支持中英文文字嵌入与图表绘制，涵盖复杂排版、艺术海报、流程图、系统架构图等多种类型。结合强大的语义理解能力，用户一句话就能完成传统意义上的“P图”操作，实现高效智能编辑。

通义视频

通义万相AI视频生成工具

查看详情

目前，通义万相模型家族已覆盖文生图、文生视频、图生视频、音频生视频、动作生成等十余种视觉创作能力，累计生成图片达3.9亿张，视频超7000万个。自今年2月起，阿里已陆续开源20余款相关模型，总下载量突破3000万次，成为开源社区中最受欢迎的视频生成模型之一。

值得一提的是，阿里巴巴旗下AI旗舰应用夸克正式发布全新AI创作平台“造点”，率先集成通义万相Wan2.5，成为国内首个支持音画同步视频生成的综合性创作平台。在图像生成方面，“造点”融合全球顶尖模型Midjourney V7，并结合夸克自研技术，打造集图像与视频创作为一体的一站式AI内容生产解决方案。

内测阶段，“造点”已吸引大量专业AIGC创作者入驻，涌现出众多现象级作品。为让更多用户亲身体验前沿AI能力，即日起至9月30日，所有用户均可限时免费使用通义万相Wan2.5的视频生成功能，享受为期7天的高阶创作权益。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜