谷歌2.5 Image：「你是我的神」，准备丢掉PS了

在人工智能图像生成领域，谷歌的 Gemini 2.5 Flash Image 模型以其卓越的性能和创新功能，正在引发一场视觉创作的革命。这篇文章详细介绍了 Gemini 2.5 Flash Image 的强大功能，包括其在图像生成、风格转换、人物一致性保持以及多模态智能方面的突破。

最初爆火的Nano Banana正式发布了，果然是谷歌新出的大模型 Gemini 2.5 Flash Image ！

可以说，继Gemini 2.5、Veo 3实现多模态推理、视频音画同步的『 TIP 』后，2.5 Flash Image又实现了AI 图像创作一致性、真实性的新高度！

一开始是网友在 LMArena 这个网站上，玩让不同的 AI 模型隐去名字，互相比拼的“AI 对战” 能力，发现有个叫 Nano Banana 的模型非常出色，人物一致性做的比任何图像大模型都强！

在以往，图像生成模型在图像美感方面表现出色，但缺乏对现实世界的深度语义理解。而 Gemini 2.5 Flash Image则能够读取和理解手绘图表、帮助解答实际问题以及一步完成复杂编辑指令的能力。

现在该模型可以在Gemini和Google AI Studio上免费使用，同时API以每张图像0.039$（折合人民币0.28￥）的价格开放。

鲸哥对它进行了一些实际测试，总的来说，它的表现只能用Niubility来形容，AI对真实图片的PS，已经达到了以假乱真的地步。

首先测试的是图片生成3D手办的测试，将欧豪和海清的原图放进去，经典梗：你是我的神！不知大家记得不。然后告诉AI提示词。

提示词：把这张照片变成一个人物模型。在它后面放一个印有人物图像的盒子，以及一台显示 Blender 建模过程的电脑。在盒子前面放一个圆形塑料底座，人物模型就站在上面。场景设置在室内。

再继续测试，让角色互换，欧豪和海清位置互换，其他动作和场景一点都不变，生成的图片也没有丝毫违和感。不过原图清晰度（梗图太老了），其实还是影响了生成的结果。

接下来测试，给阿姨做了不同的风格变换，有慕夏绘画、流行波普、孟菲斯、蓝线技术等风格。不同风格中，人物一致性得到了高度统一。

它的无缝融合多张图片的能力，也是Gemini 2.5 Flash Image的最强能力之一。

最近即时零售大战，送外卖补贴比较多。我们让马斯克骑着电动车去送外卖。。。

提示词：让图片中的男性马斯克，在老居民小区里面，带着美团的头盔，骑电动车送外卖。

我们可以看见图片中的马斯克带上了某团的头盔，骑着特定的电动车在老巷子里送外卖，人物头像没有变脸，姿势和光线的一致性恰到好处。

据野史记载，秦始皇曾在南极骑着北极熊，”有图有真相”，这个网络热梗不知道大家有没有听说过，在这里，我们也测试一下它能不能将两张完全不是一个平面的照片合在一起。

提示词：根据图片，合成一张秦始皇骑北极熊的图片，要求整体保持一致的和谐。

秦始皇还真骑上了北极熊……两张图完全不在一个维度，但硬是拼出了和谐画面，虽然有点违和但不多。

将多人放在同一照片中合照的测试，这个很考验模型对细节的还原。

生成的图片中，不管是人物的穿搭搭配还是动作表情，都非常的和谐，人物站位也有前后的顺序调整，这是实拍照片吗？AI已经让我傻掉了。

随后测试了，在不同姿势中保持人物形象的一致性。

提示词：将图中的女性360度旋转，展示她的左侧、后侧、右侧，保持衣服，发型，五官，人物特点的一致。

图片中的女性四方位图，不管是体型还是表情都没有变化，椅子的朝向也跟随着人物的变化而变化，只在右侧图中，手势和放脚的地方变了。

不知道大家有没有看最近爆火的《浪浪山小妖怪》，小孩看是喜剧，大人看是职场讽刺。我让它基于四个动漫角色生成不同表情包。

提示词：给图片中的四个动漫角色生成四张不同的表情包

每张都保持了角色一致性，表情丰富多样，完美做成表情包套装。国外有人扩展到10张不同风格，意义各异，还挺有创意的。这功能对 meme 爱好者来说是福音，但如果角色太复杂，偶尔会丢点细节。

鲸哥再测试使用提示词进行图片精准的调整，给几百年没穿衣服的大卫和没有手臂的维纳斯，分别穿上西装和长出手臂。

提示词：给大卫和维纳斯穿上衣服，给大卫穿上一件高级感的西装，黑色有质感的西装，系着一个红色的领结，穿着一双棕色的皮鞋，手里捧着一束红玫瑰花束。让维纳斯长出双手，给给她穿上一件漂亮的大拖尾婚纱。

大卫穿上西装后变瘦了，这就是“穿衣显瘦，脱衣有肉”的真实写照吗，维纳斯也长出了手臂，身穿白色礼服站在那里。这种提示词编辑很方便，能局部改姿势、加颜色或去污渍，但有时会过度平滑或忽略小指令。

最后测试的是风格迁移的能力，我让它把一张普通图转成吉卜力风格插画，要求保持原图核心又突出吉卜力辨识度。

提示词：请将提供的图片转换为吉卜力工作室风格的插画，具有明显的吉卜力风格辨识度，又不影响原图核心内容的呈现。

图片颜色柔和、细节梦幻，却没丢原意。X上还有人用它转老照片成彩色高清，还修复污损，效果都很惊艳。

总而言之：

Gemini 2.5 Flash Image的核心功能是根据文本提示生成细节丰富的图片、无缝融合多张图片、在不同编辑中保持人物形象的一致性，以及使用自然语言进行精准的调整，例如更换服装或场景。它甚至还具备多模态智能，你可以混合文本和图片，获得意想不到的效果。此外，它还内置了水印等安全功能，可以识别 AI 生成的内容。

毫无疑问，Gemini 2.5 Flash Image 会是一款颠覆性的快速创意图像处理工具——速度快、价格实惠（例如每张图片 0.039 美元）以后将取代很多PS任务。

本文由人人都是产品经理作者【鲸选AI】，微信公众号：【鲸选AI】，原创/授权发布于人人都是产品经理，未经许可，禁止转载。

题图来自Unsplash，基于 CC0 协议。