XVerse – 字节跳动推出的多主体控制图像生成模型

XVerse是什么

XVerse是字节跳动智能创作团队推出的新型多主体控制图像生成模型。模型在文本到图像生成领域实现对多个主体身份和语义属性（如姿势、风格、光照）的精细控制，同时保持生成图像的高质量和一致性。XVerse将参考图像转换为特定于标记的文本流调制偏移量，实现对特定主体的精确和独立控制，不干扰图像潜在变量或特征。模型引入VAE编码的图像特征模块和正则化技术，增强细节保留能力和生成质量。XVerse在多主体控制图像合成中提供高保真度、可编辑性，能对个体主体特征和语义属性进行强大的控制。

XVerse的主要功能

多主体控制：XVerse能同时控制多个主体的身份和语义属性，例如在一张图像中同时控制多个人物的身份、姿势、风格等，实现复杂的场景生成。
高保真图像合成：生成的图像具有高保真度，精确地反映文本描述中的细节和语义信息，同时保持图像的整体质量和一致性。
语义属性控制：支持对语义属性（如姿势、风格、光照）进行精细控制，实现对图像风格和氛围的灵活调整。
强大的可编辑性：用户基于简单的文本提示对生成的图像进行编辑和调整，实现个性化的图像创作。
减少伪影和失真：引入VAE编码图像特征模块和正则化技术，XVerse能显著减少生成图像中的伪影和失真，提高图像的自然度和视觉效果。

XVerse的技术原理

文本流调制机制（Text-stream Modulation Mechanism）：将参考图像转换为特定于标记的文本流调制偏移量，实现对特定主体的精确控制。偏移量被添加到模型的文本嵌入中，在不干扰图像潜在变量或特征的情况下，实现对生成图像的精细控制。
VAE编码图像特征模块：为增强生成图像的细节保留能力，XVerse引入VAE编码的图像特征模块。图像特征模块作为辅助模块，帮助模型在生成过程中保留更多的细节信息，减少伪影和失真。
正则化技术：基于随机保留一侧的调制注入，强制模型在非调制区域保持一致性。正则化主体特定的特征，作为多主体数据集的数据增强策略，提高模型在多主体场景中的区分和保持主体特征的能力。基于计算调制模型和参考T2I分支之间的文本图像交叉注意力图的L2损失，确保调制模型保留与T2I分支一致的注意力模式，保持语义交互的一致性和可编辑性。
训练数据：XVerse用高质量的多主体控制训练数据集进行训练。数据集基于Florence2进行图像描述和短语定位，使用SAM2进行精确的人脸提取，构建包含多种主体和场景的高质量训练数据。训练数据涵盖多种场景，包括人与物体的交互、人与动物的组合以及复杂的多人场景，增强模型的泛化能力。