刷新五项SOTA,百度ActBERT:基于动作和局部物体的视频文本特征学习模型
百度推广 2021-03-23 16:11

  机器之心公布

  全世界电子计算机视觉顶会 CVPR 2 上,百度搜索总共有 22 篇毕业论文被接受。这篇 Oral 毕业论文中,百度搜索明确提出了 ActBERT,该实体模型能够学习培训抒情性视频开展无监管视频文字关联,并明确提出纠缠不清伺服电机对部分地区、全局动作与规范字开展编号。最后在 5 项有关评测每日任务上获得了 SOTA 結果。

  全世界电子计算机视觉顶会 CVPR 2 上,百度搜索总共有 22 篇毕业论文被接受。这篇 Oral 毕业论文中,百度搜索明确提出了 ActBERT,该实体模型能够学习培训抒情性视频开展无监管视频文字关联,并明确提出纠缠不清伺服电机对部分地区、全局动作与规范字开展编号。最后在 5 项有关评测每日任务上获得了 SOTA 結果。

  ActBERT 在中下游视频和语言表达每日任务上,即文字视频精彩片段查找、视频叙述转化成、视频话题讨论、动作流程精准定位等每日任务上显著好于别的技术性,展现了其在视频文字表明层面的自学能力。

  

  毕业论文:《ActBERT: Learning Global-Local Video-Text Representations》

  毕业论文连接:

  目前运用 BERT 训炼方法开展视频语言表达建模一般通过量化分析视频帧特点的方法,根据聚类算法离散化将视觉特点转换为视觉英语单词。可是,详尽的部分信息,比如,互动交流目标,在聚类算法全过程中很有可能会遗失,避免 实体模型进一步发觉粗粒度的视频和文本对应关系。文中明确提出 ActBERT 从匹配视频编码序列中发掘全局和部分视觉案件线索和文字说明,它运用丰富多彩的前后文信息和粗粒度的关联开展视频 - 文字协同建模,其奉献有三点:

  最先,ActBERT 融合了全局动作,部分地区与文字叙述。例如「裁切」、「切成片」这类的动作针对各种各样视频有关的中下游每日任务是有好处的。除开全局动作信息,融合当地地区信息以出示粗粒度的视觉提醒,地区出示相关全部情景的详尽视觉案件线索,包含地区目标特点,目标的部位。语言模型能够从地区信息中获益以得到更强的语言表达和视觉一致性。

  次之,纠缠不清伺服电机控制模块对来源于三个因素开展编号,即全局动作,部分地区和语言表达叙述。新的纠缠不清编号控制模块从三个来源于开展多模态特点学习培训,以提高2个视觉提醒和语言表达中间的互动交流作用。在全局动作信息的具体指导下,对语言模型引入了视觉信息,并将语言表达信息融合到视觉实体模型中。纠缠不清伺服电机动态性挑选适合的前后文以推动总体目标预测分析。

  除此之外,明确提出四个训练科目来学习培训 ActBERT。预训炼后的 ActBERT 被迁移到五个与视频有关的中下游每日任务,并定量分析地表明 ActBERT 做到了最优秀的特性。

  优化算法

  纠缠不清伺服电机

  纠缠不清伺服电机包含三个伺服电机, 三个伺服电机的键入来源于三个来源于。为了更好地提升视觉和语言表达特点中间的互动交流,纠缠不清伺服电机将视觉信息引入语言表达伺服电机,并将语言表达信息融合到视觉伺服电机中。从总体上,纠缠不清伺服电机运用动作信息催化反应互相沟通交流。

  

  C_w 是混和后的语言表达表明方式,而 C_r 是正确引导后的区域特征。随后,C_w 应用一个线形层得到新的键值对。造成的键值对与初始的 a 伺服电机和 r 伺服电机键值对层叠在一起。根据这类方法,视觉和语言表达特点更进一步联络在一起。

  

  训炼方法

  文中明确提出四个训炼方法开展实体模型学习培训。第一、有掩码的语言表达建模每日任务。文中运用地区物件和全局动作中的视觉数据信号,发觉视觉和语言表达实体线中间的关联。该每日任务驱使实体模型从前后文叙述中学习培训,另外获取有关的视觉特点以帮助文字预测分析。当形容词被除去时,实体模型应当运用动作特点来更精确预测分析。当叙述部分的专有名词被除去时,当地区域特征能够出示大量的前后文信息。

  第二、有掩码的动作归类每日任务。这一每日任务是依据语言表达和物件特点,预测分析被除去的动作标识。确立的动作预测分析能够有两层面的益处。1)长阶段动作编码序列案件线索能够被发掘,该每日任务能够能够更好地辨别实行动作时的先后顺序;2)运用地区物件和语言表达文字能够得到更强的跨多形式建模,该每日任务能够提高预训练模型中的动作鉴别工作能力,能够进一步营销推广到很多中下游每日任务。

  第三、有掩码的物件归类每日任务。在该每日任务中,部分地区目标特点被任意除去。其总体目标遍布为将该地区键入到同样的目标检测实体模型获得的激话值。提升总体目标是降到最低二种遍布中间的 KL 差别。

  第四、跨匹配算法。与下一个语句预测分析(NSP)每日任务相近,在第一个标记 [CLS] 的輸出后添加了一个线形支持向量机,用于标示语言表达与视觉特点的关联性。假如成绩较高,说明文字非常好地叙述了视频视频剪辑。

  

  试验

  试验设定

  ActBERT 在 HowTo100M 数据上开展预训炼。该数据包含了累计 23,611 项每日任务,比如维护保养和维修、小动物解救、提前准备食物等。在五个每日任务上测评了 ActBERT 的特性。

  视频叙述转化成试验結果

  

  ActBERT 在全部指标值上均好于 VideoBERT,说明预训炼学习培训到更强的视频表明,也说明 ActBERT 对视频编码序列建模的实效性。

  动作切分试验結果

  

  ActBERT 显著好于标准方式。它说明预训炼的 ActBERT 能够仅解决视觉。当删掉地区信息时,能够观查到特性降低了,说明详尽的部分案件线索针对聚集视频帧标识每日任务有关键功效。

  动作流程精准定位试验結果

  

  ActBERT 的主要表现显著好于 TVJE,即均值提高有 7%。这一結果乃至比无监督学习的特性也要好。为了更好地与 TVJE 有公平公正的比照,文中删除了部分地区信息,这一結果也显著好于 TVJE,证实 ActBERT 预训炼的实效性。详细 ActBERT 实体模型进一步提高了 4%。

  文字视频精彩片段查找与视频话题讨论试验結果

  

  不用繁杂的协同视频文字建模,ActBERT 显著好于目前别的方式。说明 ActBERT 在规模性数据上的强劲自学能力。

  结果

  ActBERT 以一种自身监管的方法开展协同视频文字建模。该方式立即为全局和部分视觉信息建模,以开展粗粒度的视觉和语言表达关联学习培训。ActBERT 将信息的三个来源于做为键入,并应用了新奇的纠缠不清伺服电机进一步提高三个源中间的互动。五个视频文字标准检测的定量分析結果证实了 ActBERT 的实效性。将来能够根据设计方案更强劲的视频和文字学习培训控制模块来提高 ActBERT,并将其运用到视频动作鉴别和检测中。

  论文参考文献:

  Linchao Zhu, Yi Yang, ActBERT: Learning Global-Local Video-Text Representations, CVPR 2.

  Antoine Miech et al., HowTo100M: Learning a Text-Video Embedding by Watching Hundred Million Narrated Video Clips, ICCV 2019.

  Chen Sun et al., VideoBERT: A Joint Model for Video and Language Representation Learning, ICCV 2019

  Linchao Zhu, Zhongwen Xu, Yi Yang, Bidirectional Multirate Reconstruction for Temporal Modeling in Videos, CVPR 2017.

  本 文为机器之心公布, 转截请联络本微信公众号得到受权 。

  ✄------------------------------------------------

  添加机器之心(全职的新闻记者 / 见习生):

  文章投稿或寻找报导:content@jiqizhixin.com

  广告宣传 & 招商合作:



客户服务热线

18175729797

在线客服