在AI作画领域,一直以来都存在一个普遍认知:想要生成高质量的图片和视频,就必须依赖更大的模型、更多的参数和更强的算力。然而,来自香港科技大学和快手科技的研究团队最近提出的EvoSearch(进化搜索)技术,正在彻底颠覆这一固有观念。
这项技术最令人震撼的表现是:仅有865M参数的Stable Diffusion2.1模型在使用EvoSearch后,生成质量竟然超越了强大的GPT-4o;而1.3B参数的Wan模型配合EvoSearch,甚至能够与比它大10倍的14B模型平分秋色。
现有AI生成模型的困境
目前主流的AI生成模型主要分为两大类:扩散模型和流模型。扩散模型通过逐步去除噪声来生成清晰图像,类似于将模糊照片逐渐变清晰的过程;流模型则通过一系列平滑变换,直接将随机噪声塑造成目标图像。
为了提升这些模型的表现,业界普遍采用两种策略。一是在训练阶段不断增大模型规模、喂入更多数据,但这种"大力出奇迹"的方法成本极高,已经接近资源上限。二是在推理阶段进行优化,包括Best-of-N采样(生成N张图片选最好的一张)和粒子采样(维护多个候选方案并筛选优秀个体)等方法。
然而,这些现有方法都存在明显缺陷:Best-of-N方法效率低下,大量计算被浪费在生成"废品"上;粒子采样方法过于保守,容易困在局部最优解中,缺乏主动探索能力;其他微调方法要么需要额外训练,要么容易导致生成样本缺乏多样性。
EvoSearch:AI作画领域的"进化论"
EvoSearch的核心创新在于将达尔文进化论的思想引入AI生成过程。该方法将图像生成视为一个物种进化过程:首先生成初始"种群"(随机噪声),然后通过"适应度评估"对半成品进行打分,接着进行"优胜劣汰"选择优秀个体,最后通过专门设计的"变异"操作产生新的候选方案。
这种变异操作是EvoSearch的关键技术突破。对于初始噪声,系统通过添加适量高斯噪声实现变异;对于去噪过程中的中间状态,则借鉴随机微分方程采样的随机性注入方式,给中间状态引入可控扰动。这种设计既能探索新区域,又能保持优秀"基因"。
与传统方法相比,EvoSearch具有三大优势:主动探索而非被动筛选,能够跳出初始候选池限制;有效平衡探索与利用,避免过早收敛到局部最优;通用性强,适用于各种扩散模型和流模型,无需修改模型结构或额外训练。
实验结果:全方位"降维打击"
研究团队在图像和视频生成任务上进行了全面测试,结果显示EvoSearch在各项指标上都显著优于现有基线方法。
在图像生成方面,随着推理计算量增加,EvoSearch生成的图片质量和文本匹配度持续稳定提升,而其他方法很快达到瓶颈。对于复杂或容易产生歧义的提示词,EvoSearch能够更准确理解并生成符合要求的图片,同时在背景、姿态等方面展现出更丰富的多样性。
视频生成方面的表现更为惊人。无论使用万象Wan1.3B模型还是混元HunyuanVideo13B模型,EvoSearch的生成质量都显著超越基线方法。最令人印象深刻的是,当为Wan1.3B模型分配与Wan14B模型相同的推理时间预算时,前者配合EvoSearch的组合效果竟能与后者打平甚至超越。
值得注意的是,即使评价指标与EvoSearch搜索时使用的奖励函数不完全一致,该方法依然表现出良好的泛化能力,不容易被特定奖励函数误导。在人工评估中,EvoSearch生成的视频在视觉质量、动作质量、文本对齐和整体质量方面都获得了更高的胜率。
技术启示与未来展望
EvoSearch的成功为AI生成领域带来了重要启示。首先,在训练成本日益高昂的今天,通过在推理阶段投入更多计算来提升模型性能是一条极具价值的探索路径。其次,将生物进化中的选择和变异思想引入AI生成领域,能够有效克服传统搜索方法的局限性。
更重要的是,这项技术的成功离不开对扩散和流模型去噪过程的深入理解。EvoSearch真正掌握了这些模型在去噪过程中的状态空间结构特征,据此设计了针对性的变异策略,从而能够更有效地探索巨大的可能性空间。
当然,EvoSearch也存在进一步优化的空间。研究团队指出,未来的改进方向包括设计更智能的变异策略、更好地平衡探索和计算效率等。
这项技术向我们展示了一个重要趋势:即使不盲目追求更大的模型和更多的训练数据,通过在推理阶段运用更智慧的搜索策略,我们依然可以挖掘出AI模型更深层次的潜力。EvoSearch正在开启AI创作的"智能进化"时代,让小模型也能创造出令人惊艳的作品。
项目主页:https://tinnerhrhe.github.io/evosearch/
代码:https://github.com/tinnerhrhe/EvoSearch-codes
论文:https://arxiv.org/abs/2505.17618