请选择 进入手机版 | 继续访问电脑版
查看: 520|回复: 3

用BERT理解视频VideoBert(若羽AI翻译)

  [复制链接]

105

主题

194

帖子

741

积分

版主

Rank: 7Rank: 7Rank: 7

积分
741
若羽AI 发表于 2019-9-26 18:08:16 | 显示全部楼层 |阅读模式
https://arxiv.org/pdf/1904.01766.pdf
我翻译的谷歌AI介绍:
从未标记的数据中学习跨模态时序表示
虽然人们可以很容易地识别视频中发生的活动,并预测接下来会发生什么事件,但对机器来说,这要困难得多。然而,理解视频的内容和动态变化,如时间定位,动作检测和自动驾驶汽车导航,对机器来说,日趋重要。为了训练神经网络来执行这样的任务,通用的做法是部署有监督学习模型,其中训练数据是由人们一帧一帧仔细标注视频获得的。这样的注解在规模上是很难获得的。因此,人们对自监督学习(无监督学习)任务很感兴趣,在这种学习中,模型被训练成各种代理任务,而这些任务的监督自然存在于数据本身。在《VideoBERT: A Joint Model for Video and Language Representation Learning (VideoBERT) 》和《Contrastive Bidirectional Transformer for Temporal Representation Learning (CBT)》,研究人员提出了从未标记视频里学习时序表示的方法。这个方法致力于在长时间距离上发现与动作和事件相关的高层语义特征。要做到这一点,研究人员就得致力于挖掘人类语言描述物与事背后的高层机制。 在视频里,对白必须在时序上对齐视觉信号,并被现成的自动语音识别系统(ASR)提取,也因此提供了一种原生的自监督学习路径。 研究人员提出的模型是一种跨模态学习的例子,它在学习时需要利用视频和音频信号信息。
图2.在视频和文本上遮蔽的信令预测(或完形填空)任务上下文中使用VideoBERT模型的说明。底部:将来自同一视频位置的可视和文本(ASR)信令(token)连接起来,以形成视频BERT的输入。一些视觉标记和文本标记被遮蔽。中间:VideoBERT应用转换器架构共同编码双向可视文本上下文。黄色和粉色框分别对应于输入和输出嵌入。顶部:训练目标是恢复遮蔽位置的正确标记。VideoBERT模型探访研究人员在超过100万个有指导性的视频(诸如烹饪、园艺、汽车修理)上训练VideoBERT模型。完成训练之后,人们能看到模型通过学习一系列的任务,可以正确地表述视频内容。比如,文本-视频预测可以用来根据视频生成指令(比如菜谱),或者输出一些表达描述内容的视频片段。不仅如此,视频-视频的预测可以通过初始的视频信令(token)推理出未来的视频内容。
图3.对烹饪视频进行了预训练之后的VideoBERT实验结果定性说明。顶部:给定一些菜谱文本,模型生成一系列可视标记。底部:给出一个可视的信令(token),我们显示了在不同的时间尺度上,由VideoBERT预测的前三个未来的信令。在这种情况下,该模型预测,一碗面粉和可可粉可能被放进烤箱烘焙,并可能成为一个布朗尼或纸杯蛋糕。模型在特征空间中使用最近于训练的训练集中的图像来可视化可视标记。为了验证Video BERT模型是否能真正学到视频与文字之间的关联,研究人员需要在烹饪视频数据集上验证“小样本学习”精度,在预训练阶段,既不需要视频,也不需要标注。为了完成分类,需要将视频标记与模板语句“现在让我向您演示如何遮蔽[Mask]”连接,并提取预测的动词和名词标记。 VideoBERT模型与作为基准的有监督学习模型的前5位测试精度相匹配,表明该模型能够在这种“小样本学习”环境下具有竞争力。用对比双向Transformer进行迁移学习虽然Video BERT在学习如何自动标记和预测视频内容方面表现出了令人印象深刻的效果,但研究人员注意到视频对象使用的视觉标记可能会丢失细粒度的视觉信息,例如较小的对象和细微的运动。为此,他们提出了对比双向变压器(CBT)模型,来消除这个标记化步骤,并通过对下游任务的转移学习,进一步评价了学习表示的质量。CBT运用了一个不同的损失函数,即对比损失函数,以最大限度地利用掩码位置与其他跨模态句子之间的相互信息。研究人员对不同任务(例如,动作分割、动作预期和视频字幕)和各种视频数据集的学习表示进行了评估。CBT在大多数情况下超过了当前最优的方法。同时,研究人员们还观察到:(1)跨模式学习目标对迁移学习性能有重要影响;(2)训练前训练集越大,表达效果越好;(3)CBT模型与平均池化、LSTM等基线方法相比,更好地利用了长时背景。
图4. 在不同时长情况下,CBT、LSTM、平均池化的预测精度比较结论该项工作证明了BERT模型在学习未标记视频的视觉语言和视觉表示方面的强大作用。研究人员发现,Video BERT模型不仅适用于“小样本”动作分类和视频文本生成(比如食谱),而且可以将学习到的时间表示特征较好地传递给各种下游任务,如动作预测。论文的后续工作包括学习低层次的视觉特征和长期的时间表示,这将使得它更好地适应视频背景。此外,研究人员还计划扩大训练前视频的数量,使其更大、更多样化。
参考论文:1. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding2. VideoBERT: A Joint Model for Video and Language Representation Learning3. Contrastive Bidirectional Transformer for Temporal Representation Learning
来源:谷歌AI博客


回复

使用道具 举报

51

主题

129

帖子

673

积分

版主

Rank: 7Rank: 7Rank: 7

积分
673
seefun 发表于 2019-9-27 20:47:14 | 显示全部楼层
这个做菜的视频我映像中看过很多遍。。是叫什么数据集来着
回复 支持 反对

使用道具 举报

105

主题

194

帖子

741

积分

版主

Rank: 7Rank: 7Rank: 7

积分
741
若羽AI 发表于 2019-9-30 15:17:55 | 显示全部楼层
seefun 发表于 2019-9-27 20:47
这个做菜的视频我映像中看过很多遍。。是叫什么数据集来着

好像叫“YouCook II Dataset”
回复 支持 反对

使用道具 举报

51

主题

129

帖子

673

积分

版主

Rank: 7Rank: 7Rank: 7

积分
673
seefun 发表于 2019-9-30 17:20:32 | 显示全部楼层
若羽AI 发表于 2019-9-30 15:17
好像叫“YouCook II Dataset”

谢谢!
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

发表主题
    673
    积分
    129
    帖子
    51
    主题
快速回复 返回顶部 返回列表