阿里云近日发布新一代图像编辑模型Qwen-Image-Edit,这是继8月5日开源的千亿参数图像生成模型Qwen-Image的升级版。

该模型以"精准修图+IP创作"为核心能力,号称能让Photoshop迎来最强挑战者。

主要功能
语义编辑:支持在保持原始图像视觉语义一致的前提下,对图像内容进行修改。

外观编辑:支持对图像的局部区域进行精确修改,如添加、删除或修改图像中的元素,同时保持其他区域不变。

精准文字编辑:支持中英文双语文字编辑,在保留原有字体、字号和风格的前提下,对图片中的文字进行增、删、改等操作。


强大的基准性能:在多个公开基准测试中表现出色,具备 SOTA(State-of-the-Art)性能,能高效完成各种复杂的图像编辑任务。


IP创作与编辑:阿里官方公布的一些案例,以Qwen的吉祥物——水豚为例,在输入对应文字后,Qwen-Image-Edit输出了不同场景的水豚图片。

团队还围绕16种MBTI性格类型设计了一系列编辑提示,基于这些提示生成了一套以吉祥物水豚为原型的MBTI主题表情包,这可以用于拓展IP的影响力。

技术创新
Qwen-Image-Edit采用双引擎驱动架构:
视觉语义控制器:集成Qwen2.5-VL大模型,确保编辑后内容逻辑自洽
视觉外观编码器:基于VAE架构维持图像底层一致性

训练数据涵盖10万+专业设计素材与50万张UGC内容,通过Diffusion技术实现像素级精细化编辑。官方数据显示,在Div2K、Flickr2K等基准测试中,其SSIM指标超越主流商用工具37%。
GitHub地址:
https://github.com/QwenLM/Qwen-Image