Loading... ## Large Self-Supervised Models Bridge the Gap in Domain Adaptive Object Detection ### abstract 摘要部分主要讲了原有的域迁移训练方法(Mean Teacher Self-labelling)在面对小数据集时作用下降,并结合如今视觉基线模型的强大能力,提出了一种使用DINO模型预测标签,并且让学生模型的源域和目标域的特征分布与DINO模型对齐的域迁移方式。 ### introduction introduction部分介绍了域迁移提出的背景:当使用场景的数据分布和训练数据不同,模型发生严重的性能退化。 接着介绍了两种常用的域迁移方式:域不变性和自标记。其中,域不变性是让源域和目标域的特征分布更相近;而自标记则是在目标域上生成伪标签,利用伪标签迭代训练模型,直到可以在目标域上获得出色的性能表现。作者总结了两种方法的共性:都是通过伪数据标签对齐不同域中的同一个类别的数据特征。 最后,作者提出了自己论文的思路:利用视觉基础模型,解耦特征和标签,对齐视觉模型和学生模型特征分布,从而间接对齐不同域的特征分布。为此,作者提出了一个两段式的证明过程:首先证明单独使用视觉基础模型可以得到很好的预测结果;然后在证明可以对齐视觉大模型和学生模型的特征分布。 ### related work related work部分主要介绍了域迁移任务的一般做法: - 自标注/伪标注:仅在源域上初始训练的模型中,筛选出置信度较高的候选框,为无监督的目标域生成标签。缺点则是对误差或者偏差敏感,为了解决这个问题出现了诸如稀缺样本重采样、边界框不确定性估计等办法。这种标签和学生模型性能的强耦合限制了模型的上线。 - 域不变性:对齐不同域之间的特征分布。但缺点是只能保证像素级别的对齐,无法保证实例级别的对齐。 最后,作者介绍了基于VFM模型的一些做法,指出了基于大模型的域自适应的研究价值的同时,也说明了基于小模型实现域迁移的现实意义。 ### method 这一个部分主要讲了作者模型的结构、以及这样子搭建流程的原因。需要结合论文中给出的流程图理解: <img src="https://y0k1n0-1323330522.cos.ap-beijing.myqcloud.com/image-20251111162329720.png" alt="image-20251111162329720" style="zoom:50%;" style=""> 模型的训练分为两个部分: - 伪标签生成:采用DINO作为backbone,添加faster R-CNN作为检测头在源域上进行目标检测训练,并在目标域上生成伪标签。 - 学生模型训练:对齐学生模型和DINO模型在源域和目标域上的特征表示,并在源域(真实标签)和目标域(伪标签)上进行目标检测训练。 #### problem definition 这部分主要还是回顾DAOD的总体目标:已知源域上的数据有对应的标签数据,而目标域上的数据没有对应的标签数据。为了在目标域上正常进行监督学习训练,我们需要现为目标域生成伪标签用以方便训练。 #### mean teacher framework 这部分也是在回顾mean teacher framework训练方式:首先现在源域上训练学生模型$f$,其初始参数为$\theta$;然后复制一个学生模型作为初始的教师模型$\bar{f}$,其初始参数为$\bar{\theta}$;使用教师模型$\bar{f}$在目标域上生成伪标签,并使用伪标签更新学生模型参数$\theta$,整体的训练过程如下所示: $$ \overline{\theta_{n+1}}=\alpha\overline{\theta_{n}}+(1-\alpha)\theta_{n+1} $$ 如此循环,不断用新训练得到的学生模型更新教师模型,然后用最新教师模型得到的伪标签反哺学生模型训练。这样“互帮互助式”的学习理论上可以达到一个很好的效果,但是实现起来受限制于伪标签的质量,不可控。 #### foundation models for pseudo-labelling 这种伪标签方法可以work的核心前提是:自监督学习训练的大模型对于不同域上的实例具备很好的泛化能力。据此作者才可以用VFM作为backbone并使用faster R-CNN作为检测头进行伪标签的生成。同时作者提到EMA模型仍然可以作为对照,证明作者方法的有效性 #### foundation models for feature alignment 这部分作者先复读了传统域不变性方法的缺点:图像级对齐泛化能力不足,实例级对齐需要优秀的伪标签支撑。并据此基于VFM大模型泛化能力强的假设,对齐同一个输入经学生模型和VFM模型的特征图,并通过降维可视化证明了这种对齐方式的特征区分度更强。 最后作者介绍了一些训练的技术实现细节: - 学生模型的输出特征格式和DINO不匹配:采用两层的MLP映射匹配通道数,采用双线性插值匹配宽高 - 训练实现细节:首先现在源域上训练,经过一定epoch之后再在源域和目标域上一起训练,让学生模型快速学习DINO的特征分布。 - 特征域对齐与伪标签生成独立:防止伪标签的质量影响特征对齐 最后修改:2025 年 11 月 30 日 © 允许规范转载 赞 如果觉得我的文章对你有用,请随意赞赏