近日,通义实验室自然语言智能团队正式发布并开源了VRAG-RL——一款视觉感知驱动的多模态RAG推理框架,旨在解决在真实业务场景中,AI如何从图像、表格、设计稿等视觉语言中检索关键信息并进行精细化推理的难题。
在复杂视觉文档知识库中检索并推理关键信息,一直是AI领域的一大挑战。传统的检索增强型生成(RAG)方法在处理视觉丰富信息时显得力不从心,主要因为它们难以应对图像、图表等视觉内容,且现有视觉RAG方法受限于固定的检索-生成流程,难以充分挖掘视觉信息中的关键知识。
为应对这些挑战,VRAG-RL框架从强化学习赋能多模态智能体训练、视觉感知机制设计以及检索与推理协同优化三个维度进行了系统性创新。它引入了多样化的视觉感知动作,如区域选择、裁剪、缩放等,使模型能够从粗粒度到细粒度逐步聚焦信息密集区域,精准提取关键视觉信息。这种从粗到细的感知方式,不仅提高了模型对视觉信息的理解能力,还显著提升了检索效率。
在训练过程中,VRAG-RL采用多专家采样策略,结合大规模模型的推理能力和专家模型的精确标注能力,使模型能够学习到更有效的视觉感知策略。同时,其细粒度奖励机制将检索效率、模式一致性与生成质量三方面因素融合,引导模型在与搜索引擎的交互中不断优化检索与推理路径。这种多维度奖励机制实现了检索与推理的双向驱动,形成了闭环优化。
VRAG-RL还引入了业界领先的GRPO算法,通过本地部署搜索引擎模拟真实世界应用场景,实现搜索引擎调用零成本,模型训练更加高效。这种训练方式不仅提升了模型的泛化能力,还使其在不同领域、不同类型的视觉任务中都能表现出色。
实验结果表明,VRAG-RL在多个视觉语言基准数据集上均取得了显著优于现有方法的性能表现,任务类型涵盖从单跳到多跳推理、从纯文本理解到图表识别和复杂布局解析等多种视觉丰富场景。无论是传统的prompt-based方法还是基于强化学习的方法,VRAG-RL都展现出了更出色的综合性能。
此外,VRAG-RL支持多轮交互,能够在推理阶段逐步聚焦于信息密集区域,实现从粗到细的信息获取。同时,该方法通过优化检索效率和推理路径,在保持高效率的同时,显著提升了模型在视觉任务上的性能。
Github:github.com/Alibaba-NLP/VRAG