开源项目 12 hours ago 193 Views 0 Comments

腾讯混元开源高效图像生成项目:混元MixGRPO!训练时间减半!

AI-GitHub

Published 10 Articles

混元团队近期开源了一款创新性高效图像生成项目:MixGRPO!

该框架通过结合随机微分方程(SDE)和常微分方程(ODE)的混合采样策略,显著提升了文本到图像(Text-to-Image, T2I)任务的效率和性能。

使其在人类偏好对齐的多个维度上均表现出显著提升,效果和效率均优于DanceGRPO,训练时间降低近50%

核心创新

MixGRPO的核心在于其混合采样机制。传统方法如Flow-GRPO和DanceGRPO依赖SDE采样引入随机性,但需在整个去噪步骤中进行优化,导致训练速度缓慢。

MixGRPO创新性地将采样过程划分为两个区间:在特定时间窗口内使用SDE采样以保留探索性,窗口外则采用ODE采样以提高确定性。

这不仅简化了马尔可夫决策过程(MDP)的优化流程,还大幅降低了计算开销。

性能对比

无论是单奖励还是多奖励,MixGRPO 在域内和域外奖励指标上均取得了最佳性能。

在progressive策略下,MixGRPO指数衰减和恒定调度均为最优选择。

HPS-v2.1 作为奖励模型下 FLUX、DanceGRPO 和 MixGRPO 的可视化结果对比。

在 HPS-v2.1 和 CLIP Score 作为奖励模型下,FLUX、DanceGRPO 和 MixGRPO 的可视化结果对比。

定性比较:MixGRPO 在语义和美学方面都取得了卓越的性能。

此外,团队还提出了MixGRPO-Flash变体,通过引入高阶ODE求解器(如DPM-Solver++)进一步加速采样过程。MixGRPO-Flash在保持相近性能的同时,将训练时间额外降低了71%。这得益于ODE部分的加速优化,例如使用二阶中点法减少采样步数,实现了计算开销与性能的平衡。

开源意义

目前,团队已发布基于 FLUX.1 Dev 架构、采用 MixGRPO 训练的模型版本,支持以下特性:

多重奖励模型联合训练(HPSv2、ImageReward、Pick Score);

兼容主流扩散采样流程;

支持 ODE/SDE 模式切换,便于推理阶段灵活配置。

该模型可用于高质量图文生成、AIGC 内容审核优化、个性化创作辅助等场景。

GitHub:https://github.com/Tencent-Hunyuan/MixGRPO

#AI开源项目推荐##github##AI技术##AI图像生成##腾讯混元#

AI-GitHub

AI-GitHub

10 Articles 1340 Views 0 Fans

Comment (0)

睡觉动画