Lego-Edit – 小米开源的图像编辑框架
# AI工具,# AI项目和框架 AI视频

Lego-Edit – 小米开源的图像编辑框架

AI中国 AI中国 3小时前 193 阅读
4.8 (1280评分)

Lego-Edit是什么

Lego-Edit 是小米开源的基于指令的图像编辑框架,通过多模态大语言模型(MLLM)的泛化能力,实现对图像的灵活编辑。采用模型级工具包,包含多种高效训练的模型,可执行多种图像操作。Lego-Edit 通过三阶段渐进式强化学习训练策略,先进行监督微调(SFT),再在特定任务上强化学习(RL),最后利用大量未标注指令进行额外 RL 训练,增强对灵活指令的处理能力。优势在于强大的泛化能力,能在多个基准测试中达到 SOTA 性能,支持局部、全局及多步骤编辑,接受掩码输入以精确控制编辑区域。Lego-Edit 无需重新训练即可整合新工具,方便扩展功能。

Lego-Edit的主要功能

  • 强大的图像编辑能力:Lego-Edit 能根据用户指令完成多种复杂的图像编辑任务,包括但不限于局部编辑、全局编辑和多步骤编辑,满足不同场景下的图像处理需求。
  • 灵活的指令理解与执行:借助多模态大语言模型(MLLM)的泛化能力,Lego-Edit 可以理解并执行开放域的指令,即使面对未见过的指令,能通过其强大的推理能力进行处理。
  • 模型级工具包的高效利用:框架包含多种在有限数据上高效训练的模型级工具,这些工具具备多种图像操作功能,MLLM 可以通过调用这些工具来完成细粒度的编辑操作,实现高效且精准的图像修改。
  • 无需重新训练即可整合新工具:Lego-Edit 支持在无需额外微调的情况下,整合新引入的编辑工具,使得其功能可以轻松扩展,适应不断变化的图像编辑需求。
  • 掩码输入支持精确编辑:接受掩码输入是 Lego-Edit 的一大亮点,用户可以通过掩码精确指定需要编辑的图像区域,实现更加精准的局部编辑效果。
  • 开源与易用性:Lego-Edit 的代码在 Apache 2.0 许可下开源,模型在 CC BY-NC 4.0 许可下开源,用户可以方便地获取和使用。通过简单的环境搭建和预训练模型下载,可使用 Gradio WebUI 开始图像编辑,降低了使用门槛。

Lego-Edit的技术原理

  • 模型级工具包:Lego-Edit 集成多种高效训练的模型,每个模型负责特定的图像操作功能,如颜色调整、对象替换等,形成一个功能丰富的工具包,为复杂的图像编辑任务提供基础支持。
  • 多模态大语言模型(MLLM)驱动:利用 MLLM 的强大泛化能力和推理能力,理解用户指令并协调模型级工具包中的不同模型,完成从指令解析到具体操作的转换,实现灵活的图像编辑。
  • 三阶段渐进式强化学习训练策略:首先进行监督微调(SFT),让模型学习基本的图像编辑知识;接着通过强化学习(RL)在特定编辑任务上训练,建立推理能力和工具使用知识;最后利用大量未标注指令进行额外的 RL 训练,由大规模批评模型提供反馈,进一步增强对灵活指令的处理能力。
  • 掩码输入机制:支持用户通过掩码指定需要编辑的图像区域,使编辑操作更加精确,能针对图像的特定部分进行修改,不影响其他区域,提高编辑的灵活性和准确性。
  • 无需重新训练的工具整合:Lego-Edit 能在不进行额外微调的情况下,直接整合新引入的编辑工具,快速适应新的编辑需求,扩展功能范围,保持系统的高效性和可扩展性。

Lego-Edit的项目地址

  • 项目官网:https://xiaomi-research.github.io/lego-edit/
  • Github仓库:https://github.com/xiaomi-research/lego-edit
  • arXiv技术论文:https://arxiv.org/pdf/2509.12883

Lego-Edit的应用场景

  • 创意设计领域:设计师可以用 Lego-Edit 快速实现创意构思,通过简单指令完成复杂的图像合成、风格转换等操作,提高设计效率,激发更多创意灵感。
  • 内容创作与编辑:在视频制作、广告设计、社交媒体内容创作等场景中,Lego-Edit 能帮助创作者快速修改图像素材,如调整颜色、替换背景、添加特效等,满足多样化的内容创作需求。
  • 电商与产品展示:电商商家可以使用 Lego-Edit 对产品图片进行优化,如去除瑕疵、调整光线、添加虚拟场景等,提升产品展示效果,增强用户购买意愿。
  • 教育与培训:在教育领域,Lego-Edit 可以作为教学工具,帮助学生学习图像编辑技巧,培养创造力和审美能力。同时,教师也可以利用它快速制作教学课件中的图像素材。
  • 个人照片美化:普通用户可以使用 Lego-Edit 对个人照片进行美化,如去除背景、调整肤色、添加装饰元素等,轻松制作出满意的照片,用于社交媒体分享或个人收藏。
  • 虚拟现实与游戏开发:在虚拟现实和游戏开发中,Lego-Edit 可用于快速生成和修改游戏中的图像资源,如角色外观、场景元素等,提高开发效率,丰富游戏视觉效果。

评分

4.8 (1280 人评分)

评论 (0)

睡觉动画