XVerse— 字节跳动推出的多主体控制图像生成模型-人工智能-PHP中文网

XVerse— 字节跳动推出的多主体控制图像生成模型

花韻仙語

发布： 2025-07-03 13:20:01

原创

351人浏览过

XVerse介绍

xverse是由字节跳动智能创作团队研发的一种新型多主体控制图像生成模型。该模型在文本到图像生成领域实现了对多个主体身份及语义属性（如姿势、风格、光照）的精细控制，同时确保生成图像的高质量与一致性。xverse通过将参考图像转化为特定于标记的文本流调制偏移量，实现对特定主体的精确且独立的控制，而不干扰图像潜在变量或特征。此外，模型引入了vae编码的图像特征模块和正则化技术，以增强细节保留能力和生成质量。xverse在多主体控制图像合成方面展现出高保真度和可编辑性，能够强有力地掌控个体主体特征及语义属性。

豆包大模型

字节跳动自主研发的一系列大型语言模型

834

查看详情

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
XVerse的主要功能

多主体控制：XVerse可以同时操控多个主体的身份和语义属性，例如在同一张图片中分别控制多个人物的身份、姿态、风格等，从而生成复杂的场景。
高保真图像合成：生成的图像具有高度真实性，能够准确反映文本描述中的细节和语义信息，并保持整体画面质量和一致性。
语义属性控制：支持对语义属性（如姿势、风格、光照）进行细致调节，使用户能灵活调整图像风格和氛围。
强大的可编辑性：用户可以通过简单的文本提示对生成的图像进行修改和优化，实现个性化的图像创作。
减少伪影和失真：借助VAE编码图像特征模块和正则化技术，XVerse显著减少了生成图像中的伪影和失真问题，提升了图像的自然度和视觉效果。

XVerse的技术原理

文本流调制机制（Text-stream Modulation Mechanism）：将参考图像转换为特定于标记的文本流调制偏移量，从而实现对特定主体的精准控制。这些偏移量被添加至模型的文本嵌入中，在不影响图像潜在变量或特征的前提下，实现对生成图像的精细调控。
VAE编码图像特征模块：为了提升图像细节保留能力，XVerse引入了VAE编码的图像特征模块。该模块作为辅助手段，帮助模型在生成过程中保留更多细节信息，降低伪影和失真的可能性。
正则化技术：采用基于随机保留一侧的调制注入方式，强制模型在非调制区域保持一致性。通过对主体特定特征进行正则化处理，将其作为多主体数据集的数据增强策略，提升模型在多主体场景下的识别和特征保持能力。同时，通过计算调制模型和参考T2I分支之间文本图像交叉注意力图的L2损失，确保调制模型保持与T2I分支一致的注意力模式，维持语义交互的一致性和可编辑性。
训练数据：XVerse使用经过精心构建的高质量多主体控制训练数据集进行训练。数据集基于Florence2进行图像描述和短语定位，利用SAM2提取精确的人脸，构建出涵盖多种主体和场景的高质量训练样本。训练数据覆盖广泛场景，包括人与物体互动、人与动物组合以及复杂多人场景，从而增强了模型的泛化能力。