XVerse – 字节跳动推出的多主体控制图像生成模型

XVerse – 字节跳动推出的多主体控制图像生成模型

4.8
0热度
HuggingFace

XVerse是什么XVerse是字节跳动智能创作团队推出的新型多主体控制图像生成模型。模型在文本到图像生成领域实现对多个主体身份和语义属性(如姿势、风格、光照)的精细控制,同时保持生成图像的高质量和一致性。XVerse将参考图像转换为特定于标记的文本流调制偏移量,实现对特定主体的精确和独立控制,不干扰图像潜在变量或特征。模型引入VAE编码的图像特征模块和正则化技术,增强细节保留能力和生成质量。

XVerse是什么

XVerse是字节跳动智能创作团队推出的新型多主体控制图像生成模型。模型在文本到图像生成领域实现对多个主体身份和语义属性(如姿势、风格、光照)的精细控制,同时保持生成图像的高质量和一致性。XVerse将参考图像转换为特定于标记的文本流调制偏移量,实现对特定主体的精确和独立控制,不干扰图像潜在变量或特征。模型引入VAE编码的图像特征模块和正则化技术,增强细节保留能力和生成质量。XVerse在多主体控制图像合成中提供高保真度、可编辑性,能对个体主体特征和语义属性进行强大的控制。

XVerse

XVerse的主要功能

  • 多主体控制:XVerse能同时控制多个主体的身份和语义属性,例如在一张图像中同时控制多个人物的身份、姿势、风格等,实现复杂的场景生成。
  • 高保真图像合成:生成的图像具有高保真度,精确地反映文本描述中的细节和语义信息,同时保持图像的整体质量和一致性。
  • 语义属性控制:支持对语义属性(如姿势、风格、光照)进行精细控制,实现对图像风格和氛围的灵活调整。
  • 强大的可编辑性:用户基于简单的文本提示对生成的图像进行编辑和调整,实现个性化的图像创作。
  • 减少伪影和失真:引入VAE编码图像特征模块和正则化技术,XVerse能显著减少生成图像中的伪影和失真,提高图像的自然度和视觉效果。

XVerse的技术原理

  • 文本流调制机制(Text-stream Modulation Mechanism):将参考图像转换为特定于标记的文本流调制偏移量,实现对特定主体的精确控制。偏移量被添加到模型的文本嵌入中,在不干扰图像潜在变量或特征的情况下,实现对生成图像的精细控制。
  • VAE编码图像特征模块:为增强生成图像的细节保留能力,XVerse引入VAE编码的图像特征模块。图像特征模块作为辅助模块,帮助模型在生成过程中保留更多的细节信息,减少伪影和失真。
  • 正则化技术:基于随机保留一侧的调制注入,强制模型在非调制区域保持一致性。正则化主体特定的特征,作为多主体数据集的数据增强策略,提高模型在多主体场景中的区分和保持主体特征的能力。基于计算调制模型和参考T2I分支之间的文本图像交叉注意力图的L2损失,确保调制模型保留与T2I分支一致的注意力模式,保持语义交互的一致性和可编辑性。
  • 训练数据:XVerse用高质量的多主体控制训练数据集进行训练。数据集基于Florence2进行图像描述和短语定位,使用SAM2进行精确的人脸提取,构建包含多种主体和场景的高质量训练数据。训练数据涵盖多种场景,包括人与物体的交互、人与动物的组合以及复杂的多人场景,增强模型的泛化能力。

XVerse的项目地址

  • 项目官网:https://bytedance.github.io/XVerse/
  • GitHub仓库:https://github.com/bytedance/XVerse
  • HuggingFace模型库:https://huggingface.co/ByteDance/XVerse
  • arXiv技术论文:https://arxiv.org/pdf/2506.21416

XVerse的应用场景

  • 电商广告生成:为电商促销活动快速生成不同人物使用同一产品的广告图像,满足品牌个性化需求。
  • 游戏角色设计:根据游戏设计师的描述生成多个具有独特外观和技能的角色概念图,加速角色设计流程。
  • 医学教育插图:生成详细的人体解剖图和生理图,帮助医学院学生更好地理解人体结构和功能。
  • 虚拟社交平台的个人形象定制:用户输入描述生成个性化的虚拟形象,用在虚拟社交平台的头像或虚拟现实中的个人形象。
  • 城市规划方案展示:生成城市公园的虚拟效果图,帮助市民更好地理解城市规划师的设计方案。

首页 发现
看过 我的