InfinityHuman— 字节联合浙大推出的AI数字人视频生成模型-人工智能-PHP中文网

InfinityHuman— 字节联合浙大推出的AI数字人视频生成模型

心靈之曲

发布： 2025-09-06 11:17:02

原创

860人浏览过

infinityhuman 是由字节跳动与浙江大学联合研发的商用级音频驱动人物视频生成模型，标志着 ai 数字人迈向实用化的重要一步。该模型采用 coarse-to-fine（由粗到精） 的生成框架，首先生成低分辨率的动作序列作为基础，再通过姿态引导细化器逐步升维至高分辨率长时视频。其创新性地引入手部专属奖励机制，显著提升了手部动作的自然度与语音同步性，有效缓解了身份漂移、画面抖动及手势僵硬等长期存在的问题。在 emtd 和 hdtf 等权威数据集上的实验表明，infinityhuman 在生成质量与稳定性方面均达到领先水平，为虚拟主播、在线教育、智能客服等应用场景提供了强有力的技术支持。

怪兽AI数字人

数字人短视频创作，数字人直播，实时驱动数字人

查看详情

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
InfinityHuman的核心功能

长时序稳定生成：支持生成高分辨率、长时间连续的人物视频，保持动作流畅和画面稳定。
精准手部建模：通过专门设计的手部奖励机制，实现手势动作自然、准确，并与语音节奏高度同步。
强身份一致性：结合姿态序列作为中间表示与首帧图像作为视觉锚点，有效抑制长时间生成中的身份偏移。
高精度口型匹配：唇形变化与输入音频精准对齐，增强人物表达的真实感。
多风格适配能力：可适配不同外貌、服饰和风格的角色形象，满足多样化应用需求。

InfinityHuman的技术架构

低分辨率动作预生成：模型首先根据音频信号生成低分辨率的姿态序列，作为全局动作的“草图”，确保嘴型、头部运动和肢体节奏初步对齐。
姿态引导细化器（Pose-Guided Refiner）：在此基础上，细化器以低分辨率姿态为指导，逐阶段恢复细节，生成高清视频。
- 稳定中间表示：姿态序列作为时间维度上的稳定桥梁，防止长期生成中出现退化。
- 首帧锚定机制：始终以输入的参考图像为首帧锚点，持续校正身份特征，避免累积误差。
- 手部动作优化：利用高质量手部动作数据集进行强化学习训练，引入手部奖励函数，提升手势自然度与语义相关性。
多模态条件融合机制：整合音频、参考图像、文本提示等多种输入模态，实现语义一致、情感匹配的多维协同生成。