在人工智能图像生成领域,谷歌的 Gemini 2.5 Flash Image 模型以其卓越的性能和创新功能,正在引发一场视觉创作的革命。这篇文章详细介绍了 Gemini 2.5 Flash Image 的强大功能,包括其在图像生成、风格转换、人物一致性保持以及多模态智能方面的突破。

最初爆火的Nano Banana正式发布了,果然是谷歌新出的大模型 Gemini 2.5 Flash Image !
可以说,继Gemini 2.5、Veo 3实现多模态推理、视频音画同步的『 TIP 』后,2.5 Flash Image又实现了AI 图像创作一致性、真实性的新高度!
一开始是网友在 LMArena 这个网站上, 玩让不同的 AI 模型隐去名字,互相比拼的“AI 对战” 能力,发现有个叫 Nano Banana 的模型非常出色,人物一致性做的比任何图像大模型都强!
在以往,图像生成模型在图像美感方面表现出色,但缺乏对现实世界的深度语义理解。而 Gemini 2.5 Flash Image则能够读取和理解手绘图表、帮助解答实际问题以及一步完成复杂编辑指令的能力。
现在该模型可以在Gemini和Google AI Studio上免费使用,同时API以每张图像0.039$(折合人民币0.28¥)的价格开放。
鲸哥对它进行了一些实际测试,总的来说,它的表现只能用Niubility来形容,AI对真实图片的PS,已经达到了以假乱真的地步。
首先测试的是图片生成3D手办的测试,将欧豪和海清的原图放进去,经典梗:你是我的神!不知大家记得不。然后告诉AI提示词。
提示词:把这张照片变成一个人物模型。在它后面放一个印有人物图像的盒子,以及一台显示 Blender 建模过程的电脑。在盒子前面放一个圆形塑料底座,人物模型就站在上面。场景设置在室内。
再继续测试,让角色互换,欧豪和海清位置互换,其他动作和场景一点都不变,生成的图片也没有丝毫违和感。不过原图清晰度(梗图太老了),其实还是影响了生成的结果。
接下来测试,给阿姨做了不同的风格变换,有慕夏绘画、流行波普、孟菲斯、蓝线技术等风格。不同风格中,人物一致性得到了高度统一。
它的无缝融合多张图片的能力,也是Gemini 2.5 Flash Image的最强能力之一。
最近即时零售大战,送外卖补贴比较多。我们让马斯克骑着电动车去送外卖。。。
提示词:让图片中的男性马斯克,在老居民小区里面,带着美团的头盔,骑电动车送外卖。

我们可以看见图片中的马斯克带上了某团的头盔,骑着特定的电动车在老巷子里送外卖,人物头像没有变脸,姿势和光线的一致性恰到好处。
据野史记载,秦始皇曾在南极骑着北极熊,”有图有真相”,这个网络热梗不知道大家有没有听说过,在这里,我们也测试一下它能不能将两张完全不是一个平面的照片合在一起。
提示词:根据图片,合成一张秦始皇骑北极熊的图片,要求整体保持一致的和谐。
秦始皇还真骑上了北极熊……两张图完全不在一个维度,但硬是拼出了和谐画面,虽然有点违和但不多。
将多人放在同一照片中合照的测试,这个很考验模型对细节的还原。
生成的图片中,不管是人物的穿搭搭配还是动作表情,都非常的和谐,人物站位也有前后的顺序调整,这是实拍照片吗?AI已经让我傻掉了。
随后测试了,在不同姿势中保持人物形象的一致性。
提示词:将图中的女性360度旋转,展示她的左侧、后侧、右侧,保持衣服,发型,五官,人物特点的一致。
图片中的女性四方位图,不管是体型还是表情都没有变化,椅子的朝向也跟随着人物的变化而变化,只在右侧图中,手势和放脚的地方变了。
不知道大家有没有看最近爆火的《浪浪山小妖怪》,小孩看是喜剧,大人看是职场讽刺。我让它基于四个动漫角色生成不同表情包。
提示词:给图片中的四个动漫角色生成四张不同的表情包
每张都保持了角色一致性,表情丰富多样,完美做成表情包套装。国外有人扩展到10张不同风格,意义各异,还挺有创意的。 这功能对 meme 爱好者来说是福音,但如果角色太复杂,偶尔会丢点细节。
鲸哥再测试使用提示词进行图片精准的调整,给几百年没穿衣服的大卫和没有手臂的维纳斯,分别穿上西装和长出手臂。
提示词:给大卫和维纳斯穿上衣服,给大卫穿上一件高级感的西装,黑色有质感的西装,系着一个红色的领结,穿着一双棕色的皮鞋,手里捧着一束红玫瑰花束。让维纳斯长出双手,给给她穿上一件漂亮的大拖尾婚纱。
大卫穿上西装后变瘦了,这就是“穿衣显瘦,脱衣有肉”的真实写照吗,维纳斯也长出了手臂,身穿白色礼服站在那里。这种提示词编辑很方便,能局部改姿势、加颜色或去污渍,但有时会过度平滑或忽略小指令。
最后测试的是风格迁移的能力,我让它把一张普通图转成吉卜力风格插画,要求保持原图核心又突出吉卜力辨识度。
提示词:请将提供的图片转换为吉卜力工作室风格的插画,具有明显的吉卜力风格辨识度,又不影响原图核心内容的呈现。
图片颜色柔和、细节梦幻,却没丢原意。X上还有人用它转老照片成彩色高清,还修复污损,效果都很惊艳。
总而言之:
Gemini 2.5 Flash Image的核心功能是 根据文本提示生成细节丰富的图片、无缝融合多张图片、在不同编辑中保持人物形象的一致性,以及使用自然语言进行精准的调整,例如更换服装或场景。它甚至还具备多模态智能,你可以混合文本和图片,获得意想不到的效果。此外,它还内置了水印等安全功能,可以识别 AI 生成的内容。
毫无疑问,Gemini 2.5 Flash Image 会是一款颠覆性的快速创意图像处理工具——速度快、价格实惠(例如每张图片 0.039 美元)以后将取代很多PS任务。
本文由人人都是产品经理作者【鲸选AI】,微信公众号:【鲸选AI】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。
题图来自Unsplash,基于 CC0 协议。