LLIA— 美团推出的音频驱动肖像视频生成框架-人工智能-PHP中文网

LLIA— 美团推出的音频驱动肖像视频生成框架

花韻仙語

发布： 2025-06-15 19:55:12

原创

1122人浏览过

llia（low-latency interactive avatars）是美团开发的一种基于扩散模型的实时音频驱动肖像视频生成框架。该框架通过音频输入驱动虚拟形象的生成，支持低延迟、高质量的实时交互体验。llia采用可变长度视频生成技术，降低了初始视频生成的延迟，并结合一致性模型训练策略和模型量化手段，显著提升了推理速度。同时，它可通过类别标签控制虚拟形象的状态（如说话、倾听、空闲）以及面部表情的细节，为用户提供流畅自然的交互效果。

海螺视频

海螺AI推出的AI视频生成工具，可以生成高质量的视频内容。

查看详情

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
LLIA的核心功能

实时音频驱动的肖像视频生成：依据输入音频信号即时生成对应的肖像视频，实现语音与表情动作的同步。
低延迟交互能力：在高性能GPU上可以实现高帧率（例如384×384分辨率下达到78 FPS）和低延迟（约140毫秒）的视频输出，适用于实时互动场景。
多状态切换机制：通过类别标签控制虚拟形象的状态，包括说话、倾听和空闲等模式，使虚拟角色能够根据场景变化做出自然反应。
面部表情精准控制：利用肖像动画技术对参考图像的表情进行修改，从而实现对生成视频中面部表情的精细调节，增强虚拟形象的表现力。

LLIA的技术实现

扩散模型架构：LLIA以扩散模型为基础结构，依赖其强大的生成能力和高质量输出。扩散模型通过逐步去除噪声来生成图像或视频。
可变长度视频生成机制：采用动态训练策略，使得模型在推理过程中能生成不同长度的视频片段，在降低延迟的同时保持画面质量。
一致性模型（Consistency Models）应用：引入一致性模型与判别器，使LLIA能在较少采样步骤的情况下完成高质量视频生成，大幅提高推理效率。
模型优化技术：使用模型量化（如INT8量化）和流水线并行化技术进一步提升模型性能，减少计算资源消耗。
条件输入与动态控制：借助类别标签和肖像动画技术，LLIA可根据输入音频特征动态调整虚拟形象的状态和表情，实现自然的交互效果。
高质量训练数据集：LLIA使用超过100小时的高质量训练数据，涵盖开源数据、网络采集数据及合成数据，从而提升模型在多种应用场景下的表现能力。