趣文网,分享全网好句子、好文章!

ICCV 2021|阿里达摩院视觉实验室提出SSCS:基于支持集的交叉监督的Video语言定位

时间:2023-07-09 05:01:01

相关推荐

ICCV 2021|阿里达摩院视觉实验室提出SSCS:基于支持集的交叉监督的Video语言定位

ICCV 2021阿里达摩院视觉实验室来啦!

还在对阿里达摩院好奇么?还在关注最新视觉方向研究工作么?

周四周五两天,我“门”与阿里达摩院视觉实验室一起,为大家挑选了其中四篇论文,让你一次看个够!

今天送出第三篇:基于支持集的交叉监督的文本视频定位。

本篇工作中,作者及团队提出了一种基于支持集的交叉监督方法(support-set cross supervision, Sscs)。Sscs可以作为video grounding任务的一个额外的分支,来更好的提取视频文本对中的相关信息。通过在一个视频和文本的特征共享空间中引入对比目标函数和生成目标函数,当两种模态的语义强相关时,两种模态的特征被强制变得相似。同时,为了解决实体之间的互斥问题,作者使用支持集来使得跨监督能更好地从整个视频中收集重要的视觉元素。实验表明,作者提出的Sscs仅在训练阶段使用,在推理阶段不增加额外计算量,显著提高state-of-the-art的性能。消融实验也验证了所提方法不同模块的有效性。

论文链接:

https://arxiv.org/pdf/2108.10576.pdf

一、摘要

现有的Video Grounding方法主要通过设计不同的复杂架构来捕获视频-文本关系,并取得了显著的进展,但是实际上单纯的通过架构设计很难学习复杂的多模态关系。在本文中,我们介绍了一种新的基于支持集的交叉监督 (Sscs) 模块,其可以在训练阶段改进现有方法而无需额外的推理成本。Sscs主要包含两个部分,判别式的对比目标(Discriminative contrastive objective)生成式的字幕生成目标(Generative caption objective)。Contrastive Objective旨在通过对比学习来提升表征能力,而Caption Objective通过利用文本监督来训练判别强大的视频编码模型。我们在当前三个主流的数据集进行了大量的实验验证了Sscs的性能,其中在Charades-STA上R1@0.5的标准下提升了6.35%。

二、动机介绍

在Video Grounding任务中,有效的视频-文本关系建模是十分重要的。但是由于视频和文本的具有不对等的语意关系,使得多模态关系变得十分复杂。比如图1(a)中“person”仅仅是一个单词,但是在出现在很长的视频中,这就限制了现有基于结构设计的方法。

图1:(a) 视频和文本的比较;(b) Sscs模块

受到当前多模态预训练方法[1,2,3]的启发,我们提出了一种基于支持集的交叉监督,称为 Sscs,其以监督学习的方式提升Video Grounding中的多模态关系建模。图1(b)所示,Sscs模块是一个独立的分支,在训练阶段可以很容易地嵌入到其他方法中。Sscs包括两个重要组成部分:Contrastive Objective和Caption Objective

Contrastive Objective是作为典型的判别损失函数,其目标是通过应用 infoNCE 损失函数来学习多模态表示;相比之下,Caption Objective是一个生成损失函数,可用于训练强大的视频编码器。对于未剪切的视频,前景(Ground Truth)和背景(Background)会出现一些共同的视觉实体,例如图1中的人和瓶子,但原始对比学习可能会丢掉前景和背景之间的相同部分,包括视觉这些实体,这就是实体互斥图2。但是这些视觉实体对于Video Grounding任务也很重要,因此不能直接使用对比学习方法。为了解决这个问题,我们应用了支持集(Support-Set) 概念[3],从整个视频中捕获视觉信息,以消除实体的互斥。通过这种方式,我们可以很自然地改进交叉监督模块并进一步增强多模态关系建模。

图2 实体互斥

三、方法介绍

本段将先简要介绍Video Grounding问题的定义,视频和文本编码,和Sscs方法。

3.1 Video Grounding定义

在训练过程中,给定视频-文本对,

,其中

分别是视频和文本。在测试阶段,Video Grounding的任务目标是,给定句子

,从

找到相对应的位置

3.2 视频和文本编码

· 视频编码: 首先将视频

分解成

个片段,用3D CNN提取特征得到

,其中

表示特征维度。

· 句子编码: 首先利用GloVe word2vec进行句子编码,然后用3层bi-LSTM网络来获得句子的特征。

3.3 交叉监督Sscs

3.3.1 框架总览

与现有方法不同的是,我们引入了两个交叉监督的训练目标(Contrastive Objective和Caption Objective),其可以在训练阶段提升现有方法,而在推理阶段不增加任何计算量。因此,本文算法框架包括两个部分,第一个是普通的Video Grounding部分,第二个是本文提出的交叉监督目标,如图3所示。所以本方法的总体训练目标如下:

其中

分别表示Contrastive Objective和Caption Objective。

图3 Sscs概览

3.3.2交叉监督目标

交叉监督目标的目标是学习有效的视频和文本之间的关系。为了清晰起见,我们首先介绍基于GT片段的模型学习,在此基础上我们介绍了交叉监督目标的细节。

1. 基于GT片段的学习

在Video Grounding任务中,一个句子通常对应多个视频片段,而且这些片段都包含在同一个Ground-Truth区间。基于GT学习的方法即单纯的将真实 (GT) 中的视频片段设置为正样本,而其他为负样本。

2. Contrastive Objective

对比学习的目标是学习有效的视频文本表示,增加

中正对的相似性,减小

中负样本对的相似性。具体损失函如下:

该目标函数是一个典型的判别损失函数。

3. Caption Objective

Caption Objective的具体公式如下:

其中

是句子

的第

个单词。

,其中

表示GT片段中的所有片段的特征,通过CNN或者自注意机制实现。

我们将通过公式(2)和(3)训练的模型称做基于GT片段的学习。

4. 基于支持集和监督

为了解决前面提到的视频和文本之间的实体互斥问题,我们提出了一种基于支持集的监督方法,其核心动机是允许不同视频片段中存在相同的语义实体。在本工作中,文本

支持集为其对应的视频的所有片段,

,其中

是第

个片段的表征。我们首先计算

中所有片段于

的注意力,具体过程如下:

其中

是余弦相似性。然后加权平均:

据此,我们可以修正正样本集为

,其他数据对为负样本:

然后新的Contrastive Objective如下:

Caption Objective目标为:

四、实验结果

4.1 实验数据集

本文将Sscs方法在TACoS, Charades-STA和ActivityNet-Captions三个数据集上进行评估。

4.2 消融实验

本文将2D-TAN和LGI作为baseline,使用Charades-STA的I3D特征来进行消融实验。GTC代表使用ground-truth进行监督,SS代表使用了基于支持集(support-set)的监督。

首先我们在Table 1中对比使用ground-truth进行监督和使用支持集进行监督的性能。可以看到,使用支持集SS进行监督的性能显著高于使用groud-truth进行监督的性能。另外,对比学习的目标函数比生成式的目标函数对video-grounding任务的提升更大。

对比不同的baseline方法,由于对比学习监督的这种目标函数与2D-TAN这种基于Hadamard乘积计算相似度的方式更加接近,因此Sscs在2D-TAN上的性能提升更大。

从图5中可以看出,增加Sscs分支可以使模型更快地收敛。

表格2展示了支持集的不同构建函数的性能。V-SS,GT-SS,Non-GT-SS分别代表使用全视频的支持集,使用ground-truth的支持集和仅使用非ground-truth构建的支持集。表格中对比了CA (cross-attention)、SA (self-attention)、FC (全连接层)、Conv (卷积层)、MP (max-pooling)和AP (average pooling)的支持集特征函数。首先,无论使用何种特征函数,使用全视频来对支持集进行构建性能均是最好的。其次,观察特征函数,cross-attention由于能够学习跨模态之间的关系,而其他的构建方式只考虑了单模态内的建模,因此cross-attention在视频级别、仅使用ground-truth和仅使用非ground-truth情况下均达到最好的性能

图6展示了当ground-truth片段和视频与文本相似度高于某阈值的情况下,不同方法对于这种视频文本对的召回率。其中,GT和Video分别代表ground-truth视频片段与文本的相似度大于阈值,和整个视频与文本的相似度大于阈值情况下,不同方法的召回率。可以看出,使用Sscs可以显著提升高相关性的视频文本对的召回率

4.3 SOTA性能对比

表格3和表格4展示了Sscs与state-of-the-art的性能对比,可以看出,Sscs在没有额外的推理计算量的情况下,能够在不同的数据集上达到目前video-grounding最好的性能

4.4 可视化分析

图7对比了baseline方法、使用GTC和使用SS训练得到的视频文本对相似度矩阵。可以看到,在一些情况下,即使视频和文本来自于同一个样本对,baseline方法也很难提取到这样的信息。与之对比,GTC可以更好的寻找到视频和文本的配对。SS则能够允许跨配对之间的语义相似度(对比图中绿色方框区域)。这也更加自然,因为并非来自于不同的样本对就一定意味着他们的语义不同。

图8展示了baseline和Sscs预测的时间范围。可以看到baseline方法的预测大部分集中于视频开始和结尾,而Sscs能够更多的找到一些视频较靠中央处发生的事件。

五、结论

本文介绍了一种基于支持集的交叉监督方法。Sscs可以作为video grounding任务的一个额外的分支,来更好的提取视频文本对中的相关信息。通过在一个视频和文本的特征共享空间中引入对比目标函数和生成目标函数,当两种模态的语义强相关时,两种模态的特征被强制变得相似。同时,为了解决实体之间的互斥问题,我们使用支持集来使得跨监督能更好地从整个视频中收集重要的视觉元素。实验表明,我们提出的Sscs不增加额外推理计算量的情况下,显著提升State-of-the-art的性能。消融实验也验证了所提方法不同模块的有效性。

Illustrastion by Thierry Fousse from Icons8

-The End-

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
显示评论内容(1)
  1. 后发2023-10-20 21:03后发[河北省网友]122.13.142.167
    这项研究非常前沿,值得期待未来在视频语言定位领域的应用。
    顶10踩0
相关阅读
阿里iDST ICCV 2017录用论文详解:基于层次化多模态LSTM的视觉语义联合嵌入

阿里iDST ICCV 2017录用论文详解:基于层次化多模态LSTM的视觉语义联合嵌入

阿里巴巴在今年的 ICCV 2017上有多篇论文入选

2023-08-12

没有比钉钉更适合文案工作了!媒体小编分享N大宝藏功能

没有比钉钉更适合文案工作了!媒体小编分享N大宝藏功能

小编也是其中一员,最初是用来做公司沟通、文件、请假等等,陆陆续续开始将工作都搬了上来

2016-12-25

从马云语录到马云食言 阿里的跨界真相全靠嚼“草根”

从马云语录到马云食言 阿里的跨界真相全靠嚼“草根”

但正如许多马云之前的豪言壮语,要么食言而肥如饿死不做游戏,要么两头堵的空炮如梦想还是要有的,万一实现了呢,在跨界上,阿里一直是一个先驱,但很多次

2009-10-16

华为诺亚提出无需数据网络压缩;AI更懂人话吗?编程语言的排行榜

华为诺亚提出无需数据网络压缩;AI更懂人话吗?编程语言的排行榜

松宝有话说:华为诺亚提出无需数据网络压缩技术,好样的

2024-01-18