近日,在2025杭州云栖大会上,阿里正式推出通义万相wan2.5 preview系列模型。该系列涵盖文生视频、图生视频、文生图以及图像编辑四大核心功能,全面拓展aigc视觉创作边界。
其中,通义万相2.5的视频生成能力尤为突出,首次实现音画同步生成——可自动匹配人声、环境音效与背景音乐(BGM),显著提升视频沉浸感和表现力,大幅降低电影级内容创作门槛。即日起,用户可通过阿里云百炼平台调用API,或直接访问通义万相官网体验最新功能。
此次发布的通义万相2.5在多项关键指标上实现跃升。
视频生成时长由原先的5秒延长至10秒,支持更完整的情节表达与叙事结构。模型可输出24帧/秒的1080P高清视频,画质细腻稳定,满足专业级视觉需求。同时,指令理解能力显著增强,能精准响应复杂、连续的操作指令。
在视频生成过程中,模型可准确执行运镜控制等高级指令;在图像编辑场景中,只需一句话即可完成人物变身、风格迁移等操作,极大简化创作流程。相比以往版本,通义万相2.5在技术架构层面迎来重大革新。
它采用原生多模态架构设计,统一框架下支持理解与生成双重任务,兼容文本、图像、视频、音频等多种输入输出形式,真正实现跨模态协同。用户仅需输入提示词,即可一键生成与画面高度契合的人声、音效和配乐,甚至能根据人物口型动态匹配语音节奏,带来更真实的视听体验。此外,模型还支持以一段音频为参考,驱动图文内容生成音画同步的视频内容。
例如,当输入一段关于“男子在街头滑板并完成空中翻转”的详细描述时,通义万相2.5不仅能准确还原动作细节、光影变化和拍摄视角,还能同步生成对应的脚步声、滑板滚动声及动感背景音乐,所有音效均与画面节奏严丝合缝。
本次升级也大幅强化了图像生成能力,支持中英文文字嵌入与图表绘制,涵盖复杂排版、艺术海报、流程图、系统架构图等多种类型。结合强大的语义理解能力,用户一句话就能完成传统意义上的“P图”操作,实现高效智能编辑。
目前,通义万相模型家族已覆盖文生图、文生视频、图生视频、音频生视频、动作生成等十余种视觉创作能力,累计生成图片达3.9亿张,视频超7000万个。自今年2月起,阿里已陆续开源20余款相关模型,总下载量突破3000万次,成为开源社区中最受欢迎的视频生成模型之一。
值得一提的是,阿里巴巴旗下AI旗舰应用夸克正式发布全新AI创作平台“造点”,率先集成通义万相Wan2.5,成为国内首个支持音画同步视频生成的综合性创作平台。在图像生成方面,“造点”融合全球顶尖模型Midjourney V7,并结合夸克自研技术,打造集图像与视频创作为一体的一站式AI内容生产解决方案。
内测阶段,“造点”已吸引大量专业AIGC创作者入驻,涌现出众多现象级作品。为让更多用户亲身体验前沿AI能力,即日起至9月30日,所有用户均可限时免费使用通义万相Wan2.5的视频生成功能,享受为期7天的高阶创作权益。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜


以上就是通义万相2.5发布!实现音画同步,视频创作门槛大降!的详细内容,更多请关注php中文网其它相关文章!
 
                        
                        每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
 
                 
                                
                                 收藏
收藏
                                                                             
                                
                                 收藏
收藏
                                                                             
                                
                                 收藏
收藏
                                                                            Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号