Contents

Introduction

  • 作者将大规模预训练多模态模型 (i.e., CLIP) 用在了长尾分类任务上,提出了 VL-LTR. 作者指出,文本通常可以描述类别的一些高层级的语义信息,当类别缺少足够样本时,文本可以作为类别的先验知识,让模型学得泛化性更好的类别特征。通过在长尾数据集上继续微调模型 (CVLP) 以及使用新的多模态分类头 (LGF Head),VL-LTR 在 3 个长尾数据集上的性能都达到了 SOTA

Methodology

Class-wise Visual-Linguistic Pre-training (CVLP)

  • 不同于 CLIP 使用 instance-wise image-text pairs 进行对比学习,CVLP 主要目标是预训练图像和文本 encoder,从而在 class level 上对齐图像和文本表征只要是描述同一类别的图像和文本都可以组成正样本对 (不过 CVLP 的初始化参数仍然来自于 CLIP)

  • Class-wise Contrastive Learning (CCL) loss. 随机采样一个 batch 的 images I = { I i } i = 1 N \mathcal I=\{I_i\}_{i=1}^NI={Ii}i=1N 和 text sentences T = { T i } i = 1 N \mathcal T=\{T_i\}_{i=1}^NT={Ti}i=1N,分别送入 visual encoder E vis \mathcal E_{\text{vis}}Evis 和 linguistic encoder E lin \mathcal E_{\text{lin}}Elin 得到图像和文本 embed
    CCL loss 

  • 其中,S i , j S_{i,j}Si,j 为 E i I E_i^IEiI 和 E j T E_j^TEjT 之间的余弦相似度,L vis \mathcal L_{\text{vis}}Lvis 和 L lin \mathcal L_{\text{lin}}Llin 为图像和文本分别作为 anchor 时的对比损失,T i + \mathcal T_i^+Ti+ 为 image I i I_iIi 的文本正样本集合 (i.e., 描述同一类别的文本),I i + \mathcal I_i^+Ii+ 为 text T i T_iTi 的图像正样本集合 (i.e., 描述同一类别的图像),τ \tauτ 为可学习的温度参数,初始化为 0.07

  • distillation loss. 为了避免文本语料库不足导致的过拟合,作者还从 CLIP 进行了蒸馏 (看实验结果的话,zero-shot CLIP 的 few-shot 性能好于 VL-LTR,这说明在训练的时候模型还是对尾部类别过拟合了,而蒸馏可以在一定程度上缓解过拟合)

  • 其中,S ′ S'S 为 CLIP 计算的余弦相似度 (CLIP 参数冻结,不进行训练)

  • 总的损失函数
    其中,λ ∈ [ 0 , 1 ] \lambda\in[0,1]λ[0,1]

Language-Guided Recognition

  • 预训练结束后 text encoder 的参数就冻结了,下面只微调 image encoder 和 LGR Head

  • Anchor Sentence Selection (AnSS). 语料库中的大多数文本描述都是从网络爬取的 (mainly come fromWikipedia),可能有比较多的噪声,因此有必要为每个类别找到 the most discriminative sentences 用于后续的分类. 具体来说,作者先采样一个 image batch I ′ I'I,其中每个类别包含最多 50 张图像,然后对每个文本 T i T_iTi,计算该文本和 I ′ I'I 之间的 L lin \mathcal L_{\text{lin}}Llin,选择 L lin \mathcal L_{\text{lin}}Llin 最小的 M MM 个文本作为该类别后续分类使用的 anchor sentences

  • Language-Guided Recognition (LGR) Head.

  • 其中,E I ∈ R D E^I\in\R^DEIRD 为 image embedding,E T ∈ R C × M × D E^T\in\R^{C\times M\times D}ETRC×M×D 为 C CC 个类别的 anchor sentences,Q ∈ R D Q\in\R^DQRDK , V ∈ R C × M × D K,V\in\R^{C\times M\times D}K,VRC×M×DG ∈ R C × D G\in\R^{C\times D}GRC×D 为 gather of the M MM anchor sentence embeddings of each class,整个注意力机制就是用 image embed 作为 query 对每个类别的 M MM 个 anchor sentence embeddings 做了一个加权平均得到 C CC 个 class embed,σ \sigmaσ 为 softmax,MLP 为 FC + ReLU + FC,P I , P T P^I,P^TPI,PT 分别为预测的两个分类概率. 损失函数

Experiments

  • ImageNet-LT

baseline is only based on visual modality while keeping other settings exactly the same as our proposed method

  • Places-LT

  • iNaturalist 2018

  • Ablation Study.

References