当前位置：首页 > 编程资源 > 编程问答 >内容正文

编程问答

arXiv 2019 《DCA: Diversified Co-Attention towards Informative Live Video Commenting》论文笔记

发布时间：2025/3/15 编程问答 43 豆豆

生活随笔收集整理的这篇文章主要介绍了 arXiv 2019 《DCA: Diversified Co-Attention towards Informative Live Video Commenting》论文笔记小编觉得挺不错的,现在分享给大家,帮大家做个参考.

北大电子工程与计算机科学学院、华科软件工程学院、北航软件学院合作的一篇文章，算是我看到的第二篇ALVC任务方面的论文，看这个版面和参考文献格式，感觉是投了ICML。
下载链接

作者先是分析了相关工作（实际上只有AAAI2019的那一篇，链接），指出该文章中没有将视觉信息和文字信息整合在一起，可能导致信息多样性有限。surrounding comments是基于video生成的，包含video中较为重要的信息。综上，本文致力于从视频和文本中收集多样化的信息。

提出Diversified CoAttention (DCA)模型，用于从视频和文本中收集多样化的信息。
DCA模型中包括三个相互关联的组件：多视角attention（MPA）、参数正交化方法（ parameter orthogonalization technique，简称Ortho）、门控attention模块（GAM）。
取得了比以前方法（就一篇）和传统的co-attention更好的结果。

本文方法的整体框架如下图所示，MPA通过多视角设置生成多样化的相互依赖的表示，Ortho用于去除MPA结果中的冗余信息，GAM用于集成来自MPA的各种信息。

门控attention模块的结构如下图所示：

automatic evaluation（其中，带下划线的是Ma et al., 2019的实验结果）：

human evaluation：

与50位技术专家面对面20年技术见证，附赠技术全景图

如果觉得生活随笔网站内容还不错，欢迎将生活随笔推荐给好友。