欢迎访问 生活随笔!

生活随笔

当前位置: 首页 > 编程资源 > 编程问答 >内容正文

编程问答

2019年, video captioning论文汇总

发布时间:2025/3/15 编程问答 22 豆豆
生活随笔 收集整理的这篇文章主要介绍了 2019年, video captioning论文汇总 小编觉得挺不错的,现在分享给大家,帮大家做个参考.

目录

  • CVPR2019:GRU
  • CVPR2019:OA-BTG
  • CVPR2019:MLE+HybirdDis
  • CVPR2019:MARN
  • CVPR2019:SDVC
  • AAAI2019:FCVC-CF&IA
  • AAAI2019:TAMoE
  • AAAI2019:MGSA
  • AAAI2019:TDConvED
  • ICCV2019:POSSG-GFN
  • ICCV2019:SRL-VCT
  • ICCVW2019:Tale
  • ICCVW2019:EtENet-IRv2
  • IJCAI2019:ViCap(new task)
  • TCSVT2019:DS-RNN
  • TIP2019:CAM-RNN
  • TMM2019:STAT

CVPR2019:GRU

  • 题目
    Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning
    下载链接
  • 动机
    现有的方法主要关注使用RNN生成captions,visual features都是直接通过CNN提取。作者认为visual features也是很重要的,于是提出使用层级快速傅里叶变换得到视频的时序信息。此外,本文还从object detector中获取高级语义信息。
  • 贡献
  • 本文提出一种visual encoding技术,可以有效的编码video的时空信息,并将相关的高级语义信息嵌入到visual codes中。
  • 本文提取的visual features中包含objects的属性、出现频率、位置变化情况。
  • 本文建立了一个GRU-based language model,达到了最新的state-of-the-art。
    • 方法
      本文方法的整体框架如下图所示。

      从图中可以看出,本文对video frames同时使用2D-CNN和3D-CNN提取特征,将提取到的特征进行如下图所示的傅里叶变换。整体框架图中,最上侧和最下侧有两条红色的流程线,上侧的代表object的高级语义信息,下侧的代表action的语义信息,分别和Dictionary取交集后,得到特征向量。最后,将2D特征、3D特征、两种语义信息输入到Sequence model中,即可得到模型输出。
    • 实验
      在MSVD数据集上的实验结果。GRU表示使用了两层GRU,MP表示使用均值池化处理视频的时间维度,C3D和IRV2代表计算visual code的方法,CI表示将C3D和IRV2一起使用,EVEhft\rm EVE_{hft}EVEhft表示使用傅里叶变换,EVEhft+sem\rm EVE_{hft+sem}EVEhft+sem表示使用傅里叶变换和高级语义信息。

      结果展示:

    CVPR2019:OA-BTG

    • 题目
      Object-aware Aggregation with Bidirectional Temporal Graph for Video Captioning
      下载链接
      本文出自Facebook AI
    • 动机
      captions的质量往往依赖于video representations,因此,找出视频中的显著物体,并了解它们的运动轨迹,对提升captions的质量有很大帮助。
    • 贡献
  • 使用Bidirectional Temporal Graph(双向时序图)捕获显著物体的时序信息和global context,从而生成更准确的captions。
  • 基于显著物体和和global frame使用Object-aware Aggregation得到更具有判别力的特征,并使用分层注意力机制得到不同objects的contributions。
    • 方法
      本文方法的整体框架如下图所示,共分为三部分:Bidirectional Temporal Graph、Object-aware Aggregation和Decoder。

      第一部分,Bidirectional Temporal Graph。 这部分先使用目标检测方法处理视频的关键帧,提取出Object Regions。然后,使用相似性度量处理出object的时序图,正序和反序的都要处理。相似性度量主要从三方面(特征相似性、IoU、面积)考虑,具体计算公式形如公式(1)。



      第二部分,Object-aware Aggregation。 这部分使用VLAD模型,对区域序列和全局帧序列进行处理。由于区域序列和全局帧序列均有正序和反序,故得到四组特征序列。

      第三部分,Decoder。 对于区域序列,使用分层注意力机制(时间(or 时序)注意力+空间注意力)。对于全局帧序列,使用时序注意力。添加attention后,将特征输入到GRU中得到captions。
    • 实验
      在MSVD数据集上的实验结果

      在MSR-VTT数据集上的实验结果

      消融实验

      Successful结果展示

      Failed结果展示,感觉生成的也挺对的。

    CVPR2019:MLE+HybirdDis

    • 题目
      Adversarial Inference for Multi-Sentence Video Description
      下载链接
    • 动机
      现有的video captioning方法中,先将视频分为多个events,再对每个event生成caption。这样得到的captions对于单个event看起来比较好,但是从整个视频来看,多个captions之间存在冗余和不连贯。因此,本文从上述问题出发,提出了Adversarial Inference方法。
    • 贡献
  • 使用对抗学习生成video captions (descriptions),基于判别器得到的score选择最优sentence。
  • 提出hybrid discriminator(混合判别器),由三种特定的判别器组合而成,取得了比单一判别器更好的结果。
  • 在多个标准上和其他方法进行了对比,在human evaluation中得到了最优的结果。
    • 方法
      本文方法的整体框架如下图所示。整体上共分为三部分:Generator、Sampling from the Generator和Selecting the sentence based on the Discriminator。其中,Generator用于编码event的特征(本文假设segment已经给出),提取三种特征,分别是:帧级别的特征、使用3D卷积提取的特征和区域特征。并对特征添加了attention,再将三种特征拼接,使用fc得到最终特征。Sampling from the GeneratorSelecting the sentence based on the Discriminator使用Discriminator(判别器)选择最优sentence。

      判别器的结构如下图所示,使用三类信息对sentence进行判别,分别是:Visual Discriminator、Language Discriminator和Pairwise Discriminator。其中,Visual Discriminator用于判断sentence和event的关联程度,这部分和Generator有些类似,提取出video的三种特征,同时提取sentence的BOW特征(词袋特征),将四者结合得到score。Language Discriminator用于判断句子的结构和语义信息,这部分使用双向LSTM对sentence进行编码,在通过fc层回归出score。Pairwise Discriminator用于判断多个sentences之间的关联程度,使用双向LSTM对相邻的sentence进行编码,再通过fc层回归出score。
    • 实验
      在ActivityNet Captions数据集上的实验结果:

      消融实验结果展示:

    CVPR2019:MARN

    • 题目
      Memory-Attended Recurrent Network for Video Captioning
      下载链接
      本文出自腾讯和南科大王向荣老师
    • 动机
      已有的video captioning方法的框架大多是encoder-decoder,在生成captions时,只能从一个video中读取信息。而本文作者发现,有很多actions和context在不同的训练数据中会反复出现,只使用一个video生成caption会丢失很多有用信息。故提出了Memory-Attended Recurrent Network,通过在传统的encoder-decoder框架中添加attended memory decoder模块,利用多个video来辅助当前处理的video生成caption。
    • 贡献
  • 本文方法可以capture每个单词与多种similar visual contexts的关系。
  • 本文模型可以对每个单词获得更加全面的理解,提高captions的质量。
  • 本文的built memory结构可以显式地对相邻单词的兼容性进行建模,不像大多数现有模型那样要求模型进行隐式学习。
  • 实验结果表明,本文方法已超过state-of-the-art。
    • 方法
      本文方法的整体架构如下图所示,共分为三个部分:Encoder、Attention-based Recurrent Decoder和Attended Memory Decoder。其中,Encoder和Attention-based Recurrent Decoder和传统的Encoder-Decoder架构基本一样。Encoder部分,首先对video进行2D和3D特征提取,并添加attention,再进行concatenate,得到最终特征。Decoder部分,使用GRU生成captions。

      本文主要的方法在Attended Memory Decoder。这部分用于辅助Attention-based Recurrent Decoder,提高captions的质量。具体的作用在于:①对于每个单词,可以从多个video scenes中捕获有用信息;②传统方法中,预测下一个单词通常只依赖于当前单词和其context,本文方法可以明确的对相邻单词的兼容性进行建模。

      Attender Memory Decoder的核心在于Memory Structure。在本文的memory中,存储的是单词www到描述ddd的映射<w,d><w,d><w,d>。而ddd主要包括三方面信息:视觉上下文(visual context)grg_rgr、词嵌入(word embedding)wrw_rwr和辅助特征(auxiliary features)uru_rur。其中,grg_rgr的生成方式如下图所示,提取所有和单词wrw_rwr相关的videos的2D和3D特征,添加attention后,选Top-k个,进行标准化,再加和即可。ere_rer使用的是Attention-based Recurrent Decoder训练得到的。uru_rur是辅助特征,本文使用的是video类别信息。

      除上文以外,本文还提出了AC Loss,形如公式(13)。主要思想是,在对2D特征添加attention时,相邻两帧的权重应该相差不大,故在损失中添加了抑制项∣ai,t(n)−ai−1,t(n)∣|a^{(n)}_{i,t}-a^{(n)}_{i-1,t}|ai,t(n)ai1,t(n)

      在训练时,本文先训练传统的Encoder-Decoder部分,再训练Attender Memory Decoder。
    • 实验
      在MSR-VTT和MSVD数据集上进行的消融实验

      对memory components进行的消融实验

      在MAR-VTT数据集上,与其他模型的对比

      在MSVD数据集上,与其他模型的对比

      实验结果展示

    CVPR2019:SDVC

    • 题目
      Streamlined Dense Video Captioning
      下载链接
    • 动机
      这篇文章是做Dense Video Captioning(以下简称DVC),就是在一个长视频中找出所有的events,然后对每一个event生成caption。在这个问题中,现有的方法都是分为两个步骤,首先,提取event proposals,然后,生成captions。这会导致生成的captions存在冗余和不一致,因为没有考虑events之间的时间依赖性。
    • 贡献
  • 提出一个新颖的DVC方法,可以利用events之间的时间依赖性生成captions。
  • 提出使用two-level (episode, event) rewards的强化学习方法,可以提高captions之间的一致性和event description的质量。
  • 可以达到state-of-the-art。
    • 方法
      和现有方法对比,Event Detection的区别如下图所示。已有的方法都是提取独立的event,本文将提取的event进行排序,生成序列的captions,加强captions之间的关联性。

      本文方法的整体框架如下图所示,主要分为三部分:Event Proposal Network(以下简称EPN)、Event Sequence Generation Network(以下简称ESGN)和Sequential Captioning Network(以下简称SCN)。其中,EPN模块用于提取event,follow了CVPR2017的SST。ESGN模块用于对上一个模块得到的events进行排序,先将候选的proposals按照开始时间排序,然后输入到RNN中,在每一步,生成每个proposal的概率,概率最大的proposal作为当前步的event。SCN模块用于生成captions,使用双层RNN结构,同时考虑visual context和linguistic context。

      由于具有三个模块,本文使用的损失也分为三部分,与三个模块分别对应。损失的具体形式如下,这里不一一介绍了。值得注意的是,SCN部分使用强化学习进行训练,公式(14)是reward。





    • 实验
      ActivityNet Captions validation set上的实验结果

      ActivityNet Captions validation set上的消融实验

      实验结果展示

    AAAI2019:FCVC-CF&IA

    • 题目
      XXX
      下载链接
    • 动机
    • 贡献
    • 方法


    • 实验


    AAAI2019:TAMoE

    • 题目
      XXX
      下载链接
    • 动机
    • 贡献
    • 方法


    • 实验


    AAAI2019:MGSA

    • 题目
      XXX
      下载链接
    • 动机
    • 贡献
    • 方法


    • 实验


    AAAI2019:TDConvED

    • 题目
      XXX
      下载链接
    • 动机
    • 贡献
    • 方法


    • 实验


    ICCV2019:POSSG-GFN

    • 题目
      XXX
      下载链接
    • 动机
    • 贡献
    • 方法


    • 实验


    ICCV2019:SRL-VCT

    • 题目
      XXX
      下载链接
    • 动机
    • 贡献
    • 方法


    • 实验


    ICCVW2019:Tale

    • 题目
      XXX
      下载链接
    • 动机
    • 贡献
    • 方法


    • 实验


    ICCVW2019:EtENet-IRv2

    • 题目
      XXX
      下载链接
    • 动机
    • 贡献
    • 方法


    • 实验


    IJCAI2019:ViCap(new task)

    • 题目
      XXX
      下载链接
    • 动机
    • 贡献
    • 方法


    • 实验


    TCSVT2019:DS-RNN

    • 题目
      XXX
      下载链接
    • 动机
    • 贡献
    • 方法


    • 实验


    TIP2019:CAM-RNN

    • 题目
      XXX
      下载链接
    • 动机
    • 贡献
    • 方法


    • 实验


    TMM2019:STAT

    • 题目
      XXX
      下载链接
    • 动机
    • 贡献
    • 方法


    • 实验


    总结

    以上是生活随笔为你收集整理的2019年, video captioning论文汇总的全部内容,希望文章能够帮你解决所遇到的问题。

    如果觉得生活随笔网站内容还不错,欢迎将生活随笔推荐给好友。