全新图像一致性生成模型OmniGen测试及部署，保持人物或者物体一致性操作

图文教程

全新图像一致性生成模型OmniGen测试及部署，保持人物或者物体一致性操作

AI中国

AI中国 1年前 247 阅读

4.8 (1280 教程评分)

15,328 人已学习

今天分享的是一个非常有趣的AI工具：OmniGen

一、OmniGen是什么

OmniGen是一种“统一图像生成模型”，无需安装ControlNet、IP-Adapter、Reference-Net等插件，就能根据文本提示，自动识别输入图像中的特征（如：某个对象、姿势、映射）。

有什么用呢？

比如下面这两幅图，如果想把里面的人物放在同一个背景中，过去比较麻烦，而现在只需一行指令。

哒哒！

上面使用的提示词：
The little girl and the man were standing in the street. the girl is left in<><|></>the man is middle in <><|></>.

还有其它用法，比如想让下方左图的红衣女孩，穿上下方右图的白色连衣裙：

提示词：
a girl wear a white dress. the girl is left in<><|></>the white dress is in<><|></>.

二、OmniGen的应用场景介绍

官方公示的场景有很多，这是一张女孩的图像，通过文本提示改变她的姿势（比心）：

图中有两个人，选择右边的人，改变他的衣服、动作、场景：

从两张图里分别提取两个人，让她们在房间里数钱：

即使图中人物多于两个，也可以通过提示词来让AI识别，比如左边“中间的男人”、右边“年龄最大的女人”，他俩在马路上聊天：

生成的新图像会保留人物的基本可识别特征：

将一束花放在指定颜色的花瓶中并摆放在玻璃桌面：

移除女孩的耳环，同时用可乐换掉背景中的杯子：

提取图像中人物的动作框架（通常需要ControlNet插件才能完成）：

也可以根据动作框架来直接生成新的图像：

三、OmniGen本地部署

方法并不复杂。首先确保网络“畅通”并已安装Python、Git等基本工具。

进入命令窗口，依次执行以下命令（以N卡为例）：

conda create -n omnigen python=3.10

conda activate omnigen

conda install pytorch=2.3.1 torchvision=0.18.1 torchaudio=2.3.1 pytorch-cuda=11.8 -c pytorch -c nvidia

git clone https://github.com/staoxiao/OmniGen.git

cd OmniGen

pip install -e .

pip install gradio spaces

python app.py

为避免每次使用都要激活环境，可建立一个批处理文件，内容如下：

@echo off
call conda activate omnigen
python app.py
pause

首次运行，会自动下载所需的模型，需要超过15GB的硬盘空间：

四、使用方法

提示词基本按照日常语法，唯一要注意的是指定的图像，需按照这个格式：<|image_1|>，其中的“i”是1到3的数字。

例如上传三幅图，图1是男性，图2是女性，图3是街道，想生成男+女+背景，则提示词为：
A man in middle in <><|></>and a woman in middle in<><|></> holding hands in street like<><|></>.

最后再测试一下名人的图像结合，让黑寡妇和马大师合影：

五、结论

1、OmniGen可识别图像中人物的性别、年龄、位置、服饰（颜色）等，使提示词得以更接近日常语言。

2、对于需要在同一图像中出现两个特定角色的应用场景，OmniGen能派上用场。

3、OmniGen目前生成效果仍不完美，但无需额外插件的多合一处理方式，符合未来AIGC的发展趋势。

4、OmniGen生成一幅图耗时较长（4090大约1分半，4060需要4到5分钟），效率有待优化。

文章涉及的网址：

OmniGen的代码页面：
https://github.com/VectorSpaceLab/OmniGen

声明：内容来源公开的各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

教程评分

4.8 (1280 教程评分)

评论 (0)

文章章节

1. GPT-4简介与注册指南

1.1 账号注册步骤

推荐文章

YouMind: 你的AI创作新范式

YouMind: 你的AI创作新范式

8月前 • 图文教程

三个 Claude Skills 提效秘籍让WPS邀请我来开会

三个 Claude Skills 提效秘籍让WPS邀请我来开会

8月前 • 图文教程

全新SkyReels正式上线

全新SkyReels正式上线

8月前 • 图文教程

可口可乐，你浓眉大眼的也用AI做广告了？

可口可乐，你浓眉大眼的也用AI做广告了？

8月前 • 图文教程

速抢（2核2G）77元/年香港免备案服务器

速抢（2核2G）77元/年香港免备案服务器

0秒前 • 图文教程

扣子节点文本转Word攻略：4步搞定，告别手动排版！

扣子节点文本转Word攻略：4步搞定，告别手动排版！

8月前 • 图文教程

3个颠覆认知的AI学习真相，90%的人都想错了！

3个颠覆认知的AI学习真相，90%的人都想错了！

8月前 • 图文教程

魔笔 AI Chat Builder：让 AI 对话秒变可交互界面

魔笔 AI Chat Builder：让 AI 对话秒变可交互界面

8月前 • 图文教程

热门标签

智能体技术张大妈Agent 深度推理大模型 AI商单腾讯开源毕业设计 MindLoongGPT 英伟达服务器 plog AmazonBedrock

热门作者

AI中国

AI中国

11569 文章 95.03万关注

钛媒体APP

钛媒体APP

1489 文章 0 关注

IT之家

IT之家

1221 文章 5.64K 关注

人人都是产品经理

人人都是产品经理

1210 文章 5.87万关注

AIbase基地

AIbase基地

1093 文章 9.63万关注