一文看清这些年自监督和无监督的进展-linux运维-PHP中文网

一文看清这些年自监督和无监督的进展

爱谁谁

发布： 2025-07-14 09:44:02

原创

391人浏览过

对比学习的概念最早由sumit chopra等人于2005年提出。这种学习方法从相似或不相似的数据对中学习相似或不相似的特征表示。常用的损失函数是infonce，如下图所示：

一文看清这些年自监督和无监督的进展其中，q是查询样本的表达，k+和k-分别是正例和负例的表达。通常，q和k是同一张图片的增强样本。最后，温度超参数tau用于调整敏感度，这在许多对比学习论文中都是常见的思路。

对比学习的简单框架中，最著名的当属Ting Chen等人提出的SimCLR。

一文看清这些年自监督和无监督的进展首先，我们通过对一个mini-batch进行增强，以获得正样本对。然后，将相同的编码器f和投影g（MLP）应用于增强样本。最后，我们使用上面定义的对比损失来最大化相同样本图像的正样本对之间的一致性，最小化距离。需要注意的是，batchsize越大，对比学习框架中的负样本就越多，这带来了计算复杂度。

一文看清这些年自监督和无监督的进展 Pretext-Invariant Representations

一文看清这些年自监督和无监督的进展 Ishan Misra等人提出了PIRL，上图展示了PIRL框架的概述。I_t是原始样本图像I的增强样本，而θ表示主编码器（ResNet）的权重，f和g是两个独立的投影（全连接层）。正如我们所看到的，我们需要获得9个变换/增强的图像块，并连接它们的表示。最后使用下式进行对比学习：

一文看清这些年自监督和无监督的进展 m_I是原始图像的特征向量，使用后会存储在memory bank M中，因此上式的目标是最大化特征向量m_I和来自两个分支的相应投影之间的一致性。需要注意的是，负样本是从memory bank中随机抽取的。

Momentum Contrast

Kaiming He等人提出了MoCo，如下图所示：

一文看清这些年自监督和无监督的进展如图所示，作者放弃了在整个训练过程中存储特征表示的memory bank，因为它在训练中会带来内存开销。相反，他们引入了一个momentum encoder，该编码器被更新为主要在线编码器的移动平均值。此外，他们提出字典作为队列结构（先进先出），它还存储特征表示。它比内存库小得多，因为作者认为不需要存储过去epoch获得的特征向量。如图中所示，对比损失是通过最小化来自两个网络的图像增强pair对的表示距离和最大化从字典中随机抽样的表示距离来实现的。有趣的是，有很多研究表明，由memory实现的表示平均与momentum encoder非常相似。然而，动量编码器显著降低了内存成本。

伪代码如下：

一文看清这些年自监督和无监督的进展 MoCo V2 & MoCo V3

一文看清这些年自监督和无监督的进展 MoCo v2对原始框架进行了一些修改。根据上图，总结如下：

1、两个encoder增加了mlp作为最终模块，如下代码所示。我们可以看到，我们只是用一对全连接层替换了最后一个完全连接的层，中间有ReLU激活（隐藏层2048-d，带有ReLU）。

一文看清这些年自监督和无监督的进展 2、更强的数据增强方式(blur augmentation)

3、学习率(cosine learning rate scheduler)

MoCo v3伪代码如下：

一文看清这些年自监督和无监督的进展总结就是所有mlp都有BN，并且batch size在4096效果足够好，伪代码中的backbone可以尝试用ViT做替换。

BYOL

一文看清这些年自监督和无监督的进展 BYOL完全放弃了MoCo和PIRL使用的字典和Memory Buffer的方式，提出了prediction head。上图中，我们可以看到prediction head是作为在线encoder的，并且尝试去预估momentum encoder的投影，prediction head的存在就是避免所有representation都是一样的。