
论文地址: https://www.php.cn/link/5810733635b8629df4a4badaaef78f6c
由字节跳动智能创作团队与清华大学联合推出的 HuMo,是一个统一的 HCVG(Human-Centric Video Generation)框架,致力于推动以人为中心的视频生成技术发展。该框架支持文本、图像和音频三种模态的协同驱动,实现高度可控的人物视频生成。

HuMo(全称 Human-Modal)通过构建高质量多模态数据集,并引入创新的渐进式训练机制,首次在统一模型中实现了对多种输入信号的有效融合与精细控制。其生成视频最高可达 720P 分辨率,最长支持 97 帧、25FPS 的输出,在多个子任务上的表现均超越当前专用模型。
立即进入“豆包AI人工智官网入口”;
立即学习“豆包AI人工智能在线问答入口”;
该框架的关键技术包括全新的数据处理流程、逐步增强的多模态训练策略,以及可根据输入灵活调整的推理机制。

项目地址:
https://www.php.cn/link/09604c68bfa72e9930b00c967e64747e
https://www.php.cn/link/b2a242690f117309099b7a561b605e9e
以上就是字节跳动联合清华大学开源统一多模态框架:HuMo的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号