阿里云宣布自研 EMO 模型上线通义 App,用照片 + 音频生成唱歌视频

王林
发布: 2024-04-26 08:00:38
转载
1123人浏览过

“本站4月25日消息,emo(emote portrait alive)是一个由阿里巴巴集团智能计算研究院开发的框架,一个音频驱动的ai肖像视频生成系统,能够通过输入单一的参考图像和语音音频,生成具有表现力的面部表情和各种头部姿势的视频。”

阿里云今日宣布,通过实验室研发的 AI 模型 —— EMO 正式上线通用 App,并开放给所有用户免费使用。借助这一功能,用户可以在歌曲、热梗、表情包中任选一款模板,然后通过上传一张肖像照片就能让 EMO 合成演唱视频。

阿里云宣布自研 EMO 模型上线通义 App,用照片 + 音频生成唱歌视频

根据介绍,通义 App 首批上线了80多个 EMO 模板,包括热门歌曲《上春山》《野狼 Disco》等,还有网络热梗“钵钵鸡”“回手掏”等,但目前暂未提供自定义音频。

本站附 EMO 官网入口:

  • 官方项目主页:https://humanaigc.github.io/emote-portrait-alive/

  • arXiv 研究论文:https://arxiv.org/abs/2402.17485

  • GitHub:https://github.com/HumanAIGC/EMO(模型和源码待开源)

阿里云宣布自研 EMO 模型上线通义 App,用照片 + 音频生成唱歌视频

EMO 的主要特点

  • 生成EMO音频的视频:EMO能够根据输入的音频(如对话或歌曲)直接生成视频,无需依赖于预先录制的视频片段或3D面部模型。

  • 高表现力和逼真度:EMO 生成的视频具有高度的表现力,能够捕捉并再现人类面部表情的细微差别,包括微妙的微表情,以及与音频节奏相匹配的头部运动。

  • 无缝帧过渡:EMO 确保视频帧之间的过渡自然流畅,避免了面部扭曲或帧间抖动的问题,从而提高了视频的整体质量。

  • 身份保持:通过 FrameEncoding 模块,EMO 能够在视频生成过程中保持角色身份的一致性,确保角色的外观与输入的参考图像保持一致。

  • 稳定的控制机制:EMO 采用了速度控制器和面部区域控制器等稳定控制机制,以增强视频生成过程中的稳定性,避免视频崩溃等问题。

  • 灵活的视频时长:EMO 可以根据输入音频的长度生成任意时长的视频,为用户提供了灵活的创作空间。

  • 跨语言和跨风格:EMO 的训练数据集涵盖了多种语言和风格,包括中文和英文,以及现实主义、动漫和 3D 风格,这使得 EMO 能够适应不同的文化和艺术风格。

以上就是阿里云宣布自研 EMO 模型上线通义 App,用照片 + 音频生成唱歌视频的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
相关标签:
来源:IT之家网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号