论文原标题: Lei J , Berg T L , Bansal M .MTVR: Multilingual Moment Retrieval in Videos[J]. 2021.DOI:10.48550/arXiv.2108.00061.

源码：https://github.com/jayleicn/mTVRetrieval

摘要及引言：

采用数据集MTVR：一种在TVR数据集的基础上增加了相应的中文查询和标题，包含了对21.8K条视频的218K条英语和中文的查询，是最大的视频检索数据集，且支持对话检索（以字幕的形式）。

提出了mXML：一个支持双语言的多片段检索模型，它通过参数共享和限制语言邻域在数据集上执行操作和训练。在XML（by Lei，2020）的基础上加入了参数共享（by Sachan and Neubig，2018；Dong，2015）使得两个语言可以用统一的解码器解码。引入语言邻域限制（by Wang，2018；Kim，2020）到查询输出和字幕嵌入，使得语义相同的不同语言的两句话在嵌入位置上更加相近。

文章首先指出了当前研究的不足之处：仅仅面向单一语言（英语），且不明确一种语言的查询进程和发现是否可以推广到其他语言。举例：Video Corpus Momet Retrieval（VCMR by Escorcia，2020）允许使用者不仅可以追踪到与查询内容最相关的视频，还可以具体定位到视频内的片段。下图（也就是封面图）给出了一个VCMR运行的例子，查询语句中的颜色指示，这些单词是和视频相关（蓝色），视频字幕相关（橙色）还是二者都相关（金色）。

查询类型：视频配字幕

数据集

数据收集

对话字幕

爬取了饭制的中文字幕，确保其与英文原文同样与视频内容有较强的相关性。

查询

花钱雇佣人来做翻译工作，具体来说就是提供视频源文件和谷歌机翻结果，人为将英语原文翻译为中文。。。

数据分析

对比分析中英文平均句长和独有词汇。对于两种语言，对话字幕中含有更多独有词汇，因此要更加多样一些

方法

mXML是在Cross-model Moment Localization（XML）的基础上提出的，相关文章见【】。XML可以提供有效的浅层视频检索和深层的片段定位。为了将单语言的XML模型应用于多语言应用场景，同时提高其效率，我们引入了参数共享和邻域限制（parameter sharing & neighborhood constrains）

解码器和参数共享

查询和上下文解码使用的是自解码器（self-encoder），它由一个自注意层、一个线性层和遵从层标准化的冗余连接组成。我们使用自解码器将每个查询分为两个模块化向量（分别对应了视频自身和字幕）。而对于视频查询，我们不采用一个字节码器和一个作为XML的交叉模型（cross encoder）的形式，而是直接采用两个自解码器的方式，使用第一个解码器的输出和第二个解码器执行工作。