【论文阅读】TALL:通过自然语言定位时间活动
论文信息:Gao J , Sun C , Yang Z ,et al.TALL: Temporal Activity Localization via Language Query[J].arXiv e-prints, 2017.DOI:10.1109/iccv.2017.563.
代码:https://github.com/WuJie1010/Awesome-Temporally-Language-Grounding
1
实现自然语言定位活动的挑战有以下几个方面:1)符合需求的多模态(语言查询和动作定位)表现;2)根据细度有限的特征准确地完成任务。我们提出了一种跨模态的时间回归定位器来联合两种模型,输出指定视频片段的对齐分数和动作边界回归结果。
传统的定位方法多使用基于光学流或者卷积神经网络训练的分类器,并且以滑动窗口的方式实现。一种支持自然语言查询的直接实现方式是吧查询分为离散的标签集合,然而要设计一种能够照顾大范围活动且不会丢失用户查询中的重要信息的标签集合并不容易。
为了能够解决离散活动标签的问题,一种可能的办法是将可视特征和句意特征都嵌入一个空间(common space),但是,对于动作查询来说,什么样的抽取可视特征的模型才是合适的尚不明确。虽然可以在不同尺度上密集地对滑动窗口进行采样,但这样做不仅计算成本高,而且随着搜索空间的增加,对齐任务也变得更具挑战性。一种替代密集抽样的方法是通过学习回归参数来调整提案的时间边界;这种方法在对象定位方面已经取得了成功,然而,在过去的工作中没有尝试过时间回归,并且由于活动具有时空体积的特征,这可能导致更多的背景噪声,因此时间回归更加困难。
我们提出了一种新的跨模态时间回归定位器(CTRL,Crossmodal Temporal Regression Localizer)模型来联合建模文本查询、视频片段候选及其时间上下文信息。它利用CNN模型提取视频片段的视觉特征,利用长短期记忆(LSTM,Long Short-term Memory )网络提取句子嵌入。跨模态处理模块被用来对文本特征和视觉特征进行联合建模,计算元素加法、乘法和直接拼接。最后,对多层网络进行视觉语义对齐和片段位置回归训练。我们分别设计非参数化和参数化的时间坐标的位置偏移量回归,在参数化设置中,剪辑的长度和中心坐标首先由地面真值长度(ground truth)和坐标参数化;在非参数化设置中,直接使用起始和结束坐标。实验表明,与对象边界回归的情况不同,非参数化的效果更好。为了便于对语义语义的研究,我们还为字谜数据集生成了句子时态标注。我们将其命名为Charades-STA。我们通过“R@n, IoU=m”的度量来评估我们在TACoS和Charades-STA数据集上的方法,该度量表示IoU的基础真值大于m的前n个结果(开始和结束对)中至少一个的百分比。实验结果证明了我们提出的CTRL框架的有效性。综上所述,我们的贡献有两个方面:(1)我们提出了一种基于自然语言(TALL)查询的时间活动定位的新问题表述。(2)引入了一种有效的跨模态时间回归定位器(CTRL),它通过对语言查询和视频片段联合建模来估计对齐分数和时间动作边界。