首个统一「图像/视频」自适应语义分割框架来了！QuadMix刷榜多项基准

东北大学、武汉大学等的研究人员首次提出统一处理图像与视频的无监督领域自适应语义分割框架，通过四向混合机制（QuadMix）和光流引导的时空聚合模块，有效缩小跨域差异，显著提升模型性能，刷新多项基准记录。该方法不仅解决了图像与视频任务割裂的问题，还为未来多模态感知系统奠定了基础。

在语义分割领域，无监督领域自适应（Unsupervised Domain Adaptive Semantic Segmentation，UDA-SS）旨在将有标签的源域知识迁移到无标签的目标域。随着数据规模和多样性的迅速提升，该任务日益重要。

目前主流研究集中于图像UDA-SS，视频UDA-SS近年来逐渐开始受到关注。

然而，两者的研究路径几乎完全割裂，存在如下挑战：

研究割裂：图像与视频任务各自为政，导致方法碎片化、认知零散；

方法难迁移：图像方法无法有效迁移到视频，视频方法无法泛化至图像；

知识利用低效：两类任务间经验难以共享，降低整体研究效率。

最近，东北大学、武汉大学、英国萨里大学、新加坡南洋理工大学的研究人员首次提出统一处理图像与视频UDA-SS的框架，通过统一特征空间建模和统一训练路径，有效解决上述割裂与低效问题。

论文链接：https://ieeexplore.ieee.org/document/10972076

代码链接：https://github.com/ZHE-SAPI/UDASS

为此，研究人员设计了全新机制QuadMix（四向混合），构建连续、稳健、丰富的中间域表示，从而大幅缩小跨域差异。并进一步引入光流引导的时空聚合模块，用于细粒度特征的分布对齐。

统一不是简单地「通用化」，而是一种深入语义建模的能力提升。QuadMix作为桥梁，不仅使图像和视频任务共享表征基础，更通过可扩展的路径结构，有望实现跨模态、跨场景的泛化能力，从而为未来多模态感知系统奠定了范式基础。

图1 相较于分别研究图像和视频的无监督域适应语义分割（UDA-SS），提出了统一研究二者的研究框架

方法详解：从四向混合到时空对齐

研究人员将图像视为无时间依赖的视频特例，提出统一建模图像与视频的视觉感知领域自适应语义分割新范式。

QuadMix：首创四向混合机制，跨域特征更稳定

研究人员在显式特征空间中同时引入以下四种混合路径：

(a) S → S：源域内部混合；

(b) T → T：目标域内部混合；

(d) S → (T → T)：源域融合到目标内部混合中。

这种设计不仅打破了传统一阶/双向Mixup的限制，更是首次在特征空间中引入交叉式路径结构，最大限度地提升了域内连续性与语义对齐能力。

实验表明，四向混合路径在t-SNE可视化中呈现更紧致、更均衡的分布，显著提升了迁移稳定性与泛化鲁棒性。

图2 不同领域混合范式的对比。与现有方法相比（存在如域内不连续性，特征泛化性差，以及特征分布不一致问题），研究人员提出的QuadMix方法在空间（时间）维度的像素级与特征级上，同时对域内混合和跨域混合进行了泛化与增强。其中符号「*」表示样本模板

图3 所提出的QuadMix用于UDA-SS的整体框架概览。图像领域自适应语义分割（Image UDA-SS）遵循一条并行流程，唯一的区别在于不包含时间线索，如图中虚线所示。图(a)：QuadMix包含四条全面的域内/跨域混合路径，在时空像素层与特征层上桥接域间差异。像素级混合作用于相邻帧、光流和标签/伪标签，旨在迭代生成两个增强的跨域中间域：T→(S→S)和S→(T→T)。这些中间域克服了源域S与目标域T内部的非连续性，并展现出更具泛化性的特征，从而有效弥合域间差异。此外，在quad-mixed域之间进行的特征级混合，有助于缓解因不同视频上下文导致的特征不一致问题。图(b)：光流引导的时空特征聚合模块将跨域视频特征压缩至一个紧凑的类别感知空间中，有效最小化类内差异，并提升类间判别能力，从而增强目标域的语义表征能力。整个训练过程是端到端的。在图(c)中，目标域测试阶段需要输入相邻帧堆叠的序列和光流

类别感知Patch模板生成

QuadMix的混合质量高度依赖于Patch模板的生成机制。为此，研究人员创新性地引入「在线类别感知Patch模板」机制：

针对图像和视频，分别提取语义一致的类别区域作为模板；

在每个训练迭代中自适应更新，避免固定模板带来的标签漂移问题；

Patch模板不仅包含像素，还包括伪标签和光流信息，覆盖图像+视频两个维度；

这些模板为每个iteration中QuadMix路径构建提供高质量输入，确保跨域混合具备一致的语义表征。

图4 展示了在视频UDA-SS中，QuadMix的多种混合策略示例：(a)为源域S和目标域T的原始样本（QuadMix之前）；(b)显示了源模板S*（如人物、骑手）与目标模板T*（如交通标志、天空）；(c)展示了域内混合路径S→S与T→T的结果；(d)展示了进一步的跨域混合路径S→(T→T)与T→(S→S)，即QuadMix后的结果。这些混合策略分别作用于视频帧、光流与标签/伪标签。需要特别说明的是，每一轮训练中所需的Patch模板均通过在线机制根据前一轮（n−1）自适应生成

像素级+特征级双层混合

输入级混合解决图像构成层次的差异，特征级混合则进一步对语义表征层进行融合与对齐。

输入级QuadMix：通过Hadamard运算叠加帧、标签与光流模板；

特征级QuadMix：构建共享类别掩码区域，在特征图中动态拼接并共享表示；

研究人员还使用轻量化的1x1卷积模块实现特征融合，从而减少语义漂移区域，提高模型鲁棒性，并有效降低了计算成本。

时空聚合机制：让视频特征对齐更加细粒度

与图像不同，视频数据包含时序信息，如何充分利用时间结构进行语义对齐，是提升视频UDA性能的关键。

研究人员提出的「光流引导的时空聚合模块」，围绕三个维度展开：

光流引导的伪标签传播

使用ACCEL网络结构获取光流；

将光流用于伪标签warp操作，获得跨帧伪标签；

保证语义一致性与时序鲁棒性；

该模块显著提高了伪标签在视频中的质量，为后续聚合与对齐奠定基础。

类别感知的空间聚合

按类别构建特征子空间；

对每类特征进行平均聚合，获得「类别代表向量」；

使用该向量进行空间重构，提升类别判别力；

时间维度的信息聚合

多帧空间聚合结果通过信息熵加权方式融合；

构建时序一致的语义表示；

最终，整个模块实现类别–空间–时间三重维度的精细化特征对齐，为目标域提供了坚实的泛化支持。

图5 展示了用于领域对齐的光流引导时空特征聚合过程，其中t′表示前一时间步，ω^T_{t′→t}表示目标帧的时间聚合权重。𝑓̄{t′→t}表示从前一时间步t′通过光流引导warp得到的帧特征，其中「→」表示沿时间维度的warp方向。

实验验证：全面评估四大数据集，全面领先

研究人员在四个经典的UDA-SS benchmark上进行了严格验证，涵盖图像与视频两大类任务：

视频域适应语义分割任务

图像域适应语义分割任务

在各种任务上，该方法均显著超过现有SOTA方法，如DACS、ProDA、DAFormer、SAC、CMOM等。其中最引人注目的是：在SYNTHIA-Seq→Cityscapes-Seq视频迁移任务上，研究人员使用Vision Transformer架构（QuadMix ViT）实现了67.2的mIoU，刷新历史最好结果，领先前SOTA（PAT、TPL-SFC）近12个百分点。

此外，在GTAV→Cityscapes图像迁移任务中，QuadMix实现66.8的mIoU，超过DAFormer、SePiCo等先进方法，展现统一方法在图像上的强大适应能力。

消融实验

可视化结果分析

图6 来自Cityscapes-Seq验证集的三个连续帧的定性结果。结果展示顺序如下：目标图像、真实标签、仅源域模型的语义分割结果、DA-VSN[16]、TPS[17]、CMOM[2]以及提出的方法

该方法在分割精度上表现最佳，边缘更平滑、细节更精细。

特征空间分布TSNE分析

图7 展示了不同混合范式在t-SNE空间中的可视化效果，分别以sign（第一行）和pole（第二行）两个类别为例。子图(a)到(e)的实验设置对应表VI中的消融实验编号：Exp.ID 0*、ID 6、ID 1、ID 3和ID 12。请注意，子图(b)、(d)和(e)中的点数相同。子图(b)展示的是域内混合（intra-mixed）后的特征嵌入，呈现出较为连续的分布；而子图(e)展示的四向混合（quad-mixed）域则表现出更具泛化性的特征分布，而非聚集式的形式。这种分布更有效地缓解了域内不连续性问题，并更好地实现知识迁移中的细粒度特征分布拉近。

理论支持+可复现性+工业可落地性

理论支撑

QuadMix的有效性不仅体现在性能指标上，还获得了充分的理论与可视化支撑：

使用t-SNE对比QuadMix与传统Mixup的特征分布，发现QuadMix特征分布更均匀、类别边界更清晰；

通过类别交叉可视化，展示quad-mixed域具备更强的语义一致性与边界准确性；

可复现性

所有实验代码已开源

支持主流框架（PyTorch）和多种分割backbone（CNN/ViT）

训练脚本、预处理流程、模型参数均一键调用

工业部署潜力

由于QuadMix可以不依赖offline warm-up模型和固定伪标签生成器，具备如下优势：

易于部署到边缘设备或实时视频处理系统；

可无缝集成至现有工业语义分割pipeline；

支持城市感知、AR导航、智能制造等多种场景；

未来研究：从统一分割迈向跨模态感知新方向

研究人员认为，统一研究视频和图像UDASS不是融合的终点，而是跨模态泛化的起点。

QuadMix所提出的「四向混合」不仅服务于图像与视频的统一语义分割，更提供了未来跨模态建模的结构性范式：

可推广至图文融合（Image-Text UDA）、点云+图像联合建模（Multi-Sensor Fusion）；

可用于大模型预训练中的中间域设计，如Diffusion模型数据生成优化；

甚至可拓展到Reinforcement Learning场景中的策略迁移与经验对齐；

整体而言，QuadMix代表的是从数据空间结构建模出发，构建统一泛化表示的全新路径。

参考资料：

https://ieeexplore.ieee.org/document/10972076

文章来自于微信公众号“新智元”。

登录账号