AAAI 2017 Vision
主动视频摘要生成:通过与用户的在线交互定制摘要
【资料图】
Active Video Summarization: Customized Summaries via On-line Interaction with the User
新加坡信息通信研究院
Institutefor Infocomm Research,Singapore
【摘要】为了方便浏览长视频,自动视频摘要生成提供了一个能代表其视频的摘录。在以自我和消费为目的的视频的情况下,由于其个性化,将摘要适应特定用户的喜好是值得期望的。目前的可视化视频摘要生成方法在提取摘要过程之前要获取用户的偏好。因此,用户需要手动修改摘要以便进一步满足其偏好。在本文中,我们提出了主动视频摘要(ActiveVideo Summarization, AVS),一种在创建摘要时用于收集用户偏好的交互式方法。AVS询问有关摘要的问题,以便在线更新,直到用户满意。为了最小化交互,下一步的最佳分割是从以前的反馈推断出来的。我们在常用的UTEgo数据集中评估AVS。我们还引入了一个用GoogleGlass记录的定制视频摘要(CSumm)的新数据集。结果表明,AVS在可用性和质量之间达到了极好的折中。在41%的视频中,AVS优于所有的测试基线,包括手动生成摘要。另外,当在视频中查找特定的事件时,AVS在询问用户六个问题之后提供了一个比其他所有基准高的平均满意度。
1 简介
紧凑型和便携式摄像机在消费市场上的出现创造了对自动可分类的汇总工具的需求。用智能手机和可穿戴式相机录制的视频正在淹没社交网络,我们的生活正在以免提和非侵入的方式记录下来。因此,视频摘要工具将在不久的将来促进共享消费者视频的关键作用,因为这些工具可以为用户节省大量的资源,例如,创建摘要的时间,分享和保存长视频的费用等。
许多最先进的摘要工具通过优化预定义的标准来选择视频段以包含在摘要中。这些标准通常与故事连贯性有关,如多样性和代表性(Dangand Radha 2014; Zhao and Xing 2014);视觉美学,注意力,对外部人员的重要性等的趣味性(Maet al. 2005; Jiang,Cotton,andLoui 2011; Gygli et al. 2014; Potapov et al. 2014; Lin,Morariu,andHsu 2015; Zhang et al. 2016; Chu,Song,andJaimes 2015;Yao,Mei,andRui 2016); 或者两者都有(Ngo,Ma和Zhang2005; Lu和Grauman 2013; Gygli,Grabner和VanGool 2015)。
然而,最近有几位作者强调,需要考虑到用户的偏好,因为如果定制摘要,视频摘要的可用性可以显著提高。此外,数据显示,不同的人产生的摘要并不一致(Gygliet al. 2014)。因此,定制可能对于有效地总结消费者视频至关重要,因为这些视频本质上是个人的。
以前的定制视频摘要的工作通过分析用户先前提供的摘要的数据来无源地获取用户的偏好。给定来自用户的文本查询(Yang等人2003;Varini,Serra和Cucchiara2015; Sharghi,Gong和Shah2016)或一组用户偏好相匹配的视频段创建定制摘要(Tseng和Smith2003; Han,Hamm和Sim2011)。另外一些方法在观看该视频(Peng et al。2011)或类似视频(Masumitsu和Echigo2000; Yoshitaka和Sawada2012)时,根据用户的行为来评估每个细分受众群的兴趣。
在本文中,我们介绍了主动视频摘要(AVS),丰富了用户偏好设置的集合。AVS提高了上述被动方法的可用性,因为这些方法受到用户提供的初始反馈的限制。概率模型用于推断定制摘要和下一个要问的问题,这减少了用户需要生成摘要的时间。
我们对视频摘要的两个具有挑战性的数据集评估AVS:UTEgo(Lee,Ghosh和Grauman2012),它是一种常用的自我中心视频数据集;CSumm是我们介绍的可定制视频摘要的新数据集。CSumm包含使用GoogleGlass录制的长时间不间断录像的视频,描绘了各种各样的事件和日常生活活动。结果表明,使用AVS生成的摘要利用了比最先进的视频摘要算法更好的用户偏好。也就是说,AVS显著缩短了用户生成其首选摘要花费的时间。向用户提出六个问题,AVS的平均满意度高于所有其他测试算法的平均水平。此外,在41%的测试案例中,用户认为AVS获得的摘要优于任何其他摘要,包括使用手动工具生成的摘要。
2 主动视频摘要生成AVS概述
AVS的目的是尽可能少地从用户端提供定制的摘要。系统首先要求从一组项目中选择用户的初始偏好,即原始视频中最频繁的项目。然后,通过问题推论进一步改进用户的偏好。
AVS向用户询问有关视频细分的具体问题。它显示一个选定的段,并询问两个二进制问题:Q1:您希望这个段落在最后的总结中吗?Q2:您想要包括类似的段吗?此外,用户可以随时决定通过摘要中的细分,并给出关于它们的反馈。虽然AVS不在于这两个问题,实验表明它们在实践中是有效的,它们为我们提供了一个概念证明。请注意,原始视频不会向用户显示,因为在交互过程中显示的分段在更短的时间内提供了视频内容的准确概念。
因此,AVS可以分为两个推理问题:(i)推断定制摘要,(ii)推断下一个显示段(Alg.1)。我们使用基于条件随机场(CRF)中的主动推理的概率方法(Roig等,2013)。推断最可能的摘要,并估计下一个问题。CRF是已经成功应用于许多计算机视觉和多媒体问题的声音概率模型(Lafferty,McCallum和Pereira2001)。在下文中,我们介绍CRF来推断自定义摘要,然后是推断细分显示的算法。
3 定制摘要推论
令
是通过指示视频的片段(或子像)是否出现在摘要中来表示视频摘要的随机变量集合。因此,
,其中当该段包括在摘要中时Si等于1,否则为0。我们将
表示为用户首选摘要的可能性的概率密度分布。我们用CRF对这个分布进行建模,θ是其参数的值,它取决于输入视频和用户的偏好。
一个CRF用Gibbs分布来模拟概率密度,c.f.(V.和Wainwright2005)。因此,
可以写为能量函数的归一化指数,其表示为
。能量函数是一组电位的和,它们是作为
子集的输入的函数。通过推断最大位数(MAP)即
,或等效地使能量函数
最大化来获得表示为
的视频的概要。
在下文中,我们首先介绍CRF的电位,然后介绍算法获取MAP的总结。
我们遵循文献中的大多数方法,选择代表性和多样性的段落,只需少量运动即可。为此,我们将CRF的能量函数定义为
在一元电位强制执行静态段的选择的情况下,成对电位会鼓励具有不同语义内容的分段,而
是相对于成对加权一元电位的参数。视频的每个片段都有一个一元电位,每对相似片段有一对明智的潜力。通过在控制汇总长度的能力函数中增加额外的约束,在推断MAP汇总的过程中控制汇总的长度,如下所示。
接下来,我们介绍一下电位,当我们知道新用户喜欢的时候,我们会更新电位。注意,为了简化,我们省略了电位对θ的依赖性,并且我们在下面引入的参数应该被认为是θ的一部分。另外,电位参数的值在5.2节被引入到实施细节。
一元电位。一元电位
鼓励选择用户可能会喜欢的分段。
等于
,其中:
是一个指示函数,如果a为真指示函数为1,相反则为0;Qi是表示该细分与个别要求有关的功能的函数;并且L是在摘要的MAP推断期间设置的恒定偏移量,以便调整汇总长度(第3.2节)。
在在线交互阶段,当用户建议包括一个段Si(对Q1的肯定响应)时,将
增加Δ以强制对该段进行选择;否则
减少Δ。
成对电位。成对电位
在每对相似片段之间定义,并强制选择具有不同内容的片段。
令
是两段描述符之间的欧几里得距离(第5.2节的细节)。成对电位强制执行类似细分不应包含在摘要中。为此,我们定义一个由描述符之间的距离加权的电位,即
,其中
强制不应该同时选择两个段,而
这个术语会减小φ的影响。
当分段不相似时。以这种方式,仅选择相似片段中的代表片段。
具体来说,
定义为
其中,γ是选择对中仅一个段的成本,α和β分别是丢弃或选择两个段的成本,L是控制汇总长度的可变参数。注意,当γ,α和β为正时,情况
的负号意味着对于大的β值来说,选择两个相似的段是不鼓励的。
当新用户的首选项可用时,我们会更新所有有关细分的所有成对条款。当用户建议选择段(Q1)或类似段(Q2)但不是两者时,γ乘以K>1,以鼓励该对中的两个段中的一个被选择。在相反的情况下,如果用户建议同时丢弃或选择两个段,我们将γ乘以-K惩罚选择其中的一个,即惩罚
。另外,如果用户建议选择段和类似段,则用-K放大β,以消除式(2)中的负号并允许选择多个相似的段。
有许多现成的算法可以从CRF中获得MAP摘要,其中我们在方程式(1)中介绍了能量函数。我们使用Boykov和Kolmogorov(2004)实施的BeliefPropagation (BP)(Yedidia,Freeman和Weiss2005)的实现,使用最大的五次迭代。
使用线搜索算法生成摘要,其优化L和λ的值以产生期望摘要持续时间和视觉质量(一元电位)和分集(成对电位)之间的平衡。回想一下,当L>1:
时,参数L鼓励从总和中排除段,并且
被进一步惩罚(由于负号)。因此,当L增加时,摘要较短;否则更长。此外,当所选择的分段不符合最低质量标准或更好地满足初始要求时,参数λ增加,并减少以促进各种内容。
4 下一段推论的显示
我们在上一节中介绍的CRF的配方产生了以下算法流程。最初,CRF电位的值为θ1,这是从输入视频估计的。然后,向用户显示摘要(MAP摘要)。该算法选择要查询的段,并且更新值为θ2,以匹配用户的答案。因此,在第t个答案之后,潜在的值为θt+1。
我们现在介绍下一段的推论进行查询。AVS用一个分数排列所有可能的问题,并要求排名最高的一个。令Sk为用于排列第k个候选段的分数。遵循动态编程设计(Bellman1952),分数基于奖励函数,该函数评估给定用户答案的总结中的变化,即将
与
进行比较。由于在用户的答复之后获得奖励,所以算法只能估计预期奖励以决定候选者进行查询。因此,得到评分Sk,评价第k个候选者的预期报酬。
我们使用R(
,
)来表示奖励函数,将未来的摘要
与
进行比较。因为我们要优先考虑可能产生摘要中最大变化的问题,我们将R(-,-)定义为
和
之间的Kendallτ 相关(DezaandDeza 2009)。
此外,我们只通过舍弃不是下一个候选人的未来分段查询的奖励来评估下一个候选人的预期报酬。因此,我们定义Sk为
其中,期望是查询第k个候选者的所有可能的答案,并且
是第k个候选者的用户答案的MAP摘要。
请注意,要计算公式(3)的期望值我们需要估计用户答案的概率。我们可以使用BP估算这个概率(第3.2节)。BP通过近似Gibbs分布的边界获得MAP摘要,即BP逼近
和
,然后,采用最大化
,独立于其他部分,参见(Yedidia,Freeman和Weiss2005)。因此,我们可以采用BP的边际估计来计算用户答案的概率。注意,
是用户建议将第i个段包括在摘要中的概率(对Q1的肯定响应)。此外,我们可以估计用户通过平均成对边际
来引用类似于段si的类似段(Q2)的概率。
5 实验
在本节中,我们报告了一个用于定制视频摘要的新数据集和UTEgo(Lee,Ghosh和Grauman2012)的结果。介绍新的数据集和实现细节后,我们报告AVS的结果。
由于提供摘要注释的当前公共数据集包含1到5分钟的视频(例如SumMe(Gygliet al。2014),MED(Potapovet al。,2014))和视频总结对于更长的视频最为有用,我们使用GoogleGlass(29 fps,分辨率为720*1280像素)录制了15到30分钟的10到15分钟的注释。视频包括各种活动,如练习或看运动,享受大自然,晚餐等。
这些视频是不受约束的,包括广泛的观点和动作,因为它们是第一人称视角,以及大量与记录无关的时刻。这使得我们的数据集对视频总结具有挑战性,这在下面的结果中得到了支持。在补充。材料我们显示了CSumm的几个摘要。
此外,我们报告UTEgo(Lee,Ghosh和Grauman2012)的结果,这是通常用于评估任务的自我中心视频数据集。该数据集以15fps的分辨率和320*480像素的分辨率录制,包含四个长时间的视频(三到五个小时)的日常活动,如烹饪,购物,饮食和驾驶。我们将三部影片分为两部分,共获得七部影片,分两小时或更长时间。
我们现在介绍我们实现的细节,以及不同常量的值。这些值在开发过程中,在与受试者进行研究之前已经手动设置。
视频分割用于总结的子波段边界是通过运动状态和环境变化来估计的。在CSumm中,这些是通过GoogleGlass的陀螺仪来推断运动,以及照明传感器来识别照明条件的突然变化。每段都设置在2.5秒左右,并且其边界匹配了照明或运动模式的变化。在UTEgo中,由于传感器数据不可用,片段被设置为大约2.5秒长,其边界匹配从图像平均强度的量化获得的图像整体照明的变化。
段描述符帧描述符ψi基于为每个帧提取的用于对象识别的神经网络的输出。具体来说,我们使用在Places数据集(Zhouet al. 2014)和ImageNet(Russakovsky等人,2015)中训练的AlexNet(Krizhevsky,Sutskever和Hinton2012)的最后一层。我们连接神经网络的输出对象(包括动物)和地方的类别。最后,我们将视频段中所有帧的每个项目的值进行平均。
一元电位回想一下,Qi代表用户的视频片段的质量。最初和默认情况下,Qi取决于运动和模糊。Qi与在UTEgo中的模糊检测器和CSumm中的陀螺仪估计的段中的运动量成反比。Qi被归一化以取值[0,1]。
事先可以由用户添加附加的被动偏好。这种偏好被包含在模型中作为这种电位的约束。在开始AVS之前,我们向用户显示最高排名的对象列表,并在视频中放置类别(即具有较高累积活动的类别),用户可以在其中选择相关项目和不相关的项目。
然后,根据第i节中这些项目的激活值,分别增加或减少Qi。这是通过
乘以Qi来完成的。其中ψi(j)是用j索引的类别的神经网络的输出。
在主动交互阶段,由Δ增加或减少Qi,设置为100,以确保用户选择的分段出现在摘要中,而不丢弃。
成对电位为了强化汇总中段的代表性,我们设置a = 5, β = 1和γ = 1。我们可以通过分析等式(2)这些参数惩罚选择两个段(β= 1和负号)。此外,这些参数鼓励两个段被丢弃(a = 5),或者只选择其中一个段(γ= 1)。注意,α大于γ,因为在大多数情况下,成对电位中的一对段应该被取消,因为在最终摘要中只应选择几个段。在主动交互阶段,乘数K被设置为5。
为了降低MAP推理算法的计算成本,我们舍弃具有最小影响的成对电位。具体来说,我们丢弃编码段之间最大距离的成对波数的30%。
摘要的持续时间持续时间是根据原始视频的长度而变化的。视频长度约为0.1%,最少为10秒。
基线我们将AVS与以下基准进行比较:
•统一:统一采样段的摘要。
•VMMR:视频最大边缘相关性,使用我们的深层功能执行的奖励多样性的总结方法(Li和Merialdo2010)。
•Leeet al.:摘要利用Lee,Ghosh和Grauman(2012)提出的方法。由于该方法获得了一组关键帧,因此我们将每个关键帧映射到其对应的段以获得视频摘要。这些摘要可在UTEgo获得。
•手动:在CSumm中,Lee,Ghosh和Grauman(2012)的结果不可用,我们已经将此基准替换为最佳细分的手动注释,长度约为10秒。这是由两个独立的科目(谁没有参加用户研究的其余部分)组成,被要求手动将给定的视频总结为自己的喜好。在两者之间随机选择用作基线的注释。
另外,将AVS中的片段查询的推断效率与片段的随机选择(称为随机)的效率进行比较。
我们分析了AVS可以在实践中使用的两种场景。在第一种情况下,用户必须总结以前从未见过的视频。用户不了解视频本质,因此不知道相关部分是什么。AVS允许用户在探索视频内容时发现自己喜欢的内容。
在第二种情况下,用户已经知道视频的配置(例如,用户是相机佩戴者),并且已经知道他或她的偏好。然而,由于原始视频的长度,在视频中寻找这样的偏好是非常耗时的。AVS允许用户浏览视频并且更容易和更快地查找这些事件。在下文中,我们提供与这两种情况相关的进行用户研究的详细信息。
情景1:发现任务我们要求30位独立参与者总结他们从未见过的两个视频。他们没有对总结中不得不看到的东西给予约束,除了他们感兴趣的事情外。然后,他们被要求评价这个总结有多好,通过回答系统管理为您提供您对该视频的理想摘要?的范围为1(完全不)至5(是的)。
为了在半盲的环境下验证他们的回答,实验后的一周,我们要求他们比较不同基线摘要的质量。对于主题总结的两个视频,我们展示了使用基准生成的摘要以及主题生成的摘要。然后,该主题通过使用以下标签之一对其进行排名来评估摘要的质量:最佳,良好,可接受,坏和最差。我们要求他们评价至少一个最差和一个最佳。受试者不知道每个摘要对应的基线,并且试验中的顺序是随机的。请注意,可以使用相同的标签对多个摘要进行评级,以便可能有多于一个最佳或最差的,如果这些概述似乎同样好或坏。
情景2:搜索任务为了评估AVS的效率,同一参与者被要求在2个视频中找到一组事件。这样的偏好以关键帧的形式提供,从原始视频中提取,以及关于最终摘要中需要包括什么的文本描述(在图1中可以看到一个示例)。
为此,我们提出了三个独立科目(不参与用户研究),从每个原始视频中选择四个框架。然后将这组四个关键帧用作视频摘要的指导和参考评分。在用户研究中,要求每个用户生成包含四个给定事件或项目的摘要。
图1 在场景2中找到的示例视频的项目。CSumm:(a)路边加油站。(b)从路上看的海滩。(c)躺在岸边的人。(d)水中的大象。UTEgo:(e)在高速公路上行驶。(f)鞋子购物。(g)切菜。(h)供应食物。
表1 每个方法在左侧的百分比比发现任务(场景1)的顶部排名好。请注意,对称元素可能不会加起来高达100%,因为两个摘要可以平等排列。
主题两次执行此任务,一次是AVS,另一次是AVS随机问题。实验过程中没有人知道AVS。受试者也忽略了他们是否使用AVS,通过随机改变算法的顺序。
在每个摘要结束时,我们要求用户评估最终摘要如何表示给定的约束,范围从1,没有或只有一个事件被发现,到5,所有给定的约束完全包括在摘要。该实验还允许从达到目标总结所需的交互量获得目标测量。一旦用两种方法执行了总结任务,我们就要求用户评估一种方法对另一种方法的可用性。
最后,为了对基线进行盲目测试,还要求用户对其他用户生成的摘要进行评估,并使用与他或她的摘要中使用的相同的比例和标准来评估基准线摘要。
使用从用户研究获得的数据和反馈来评估AVS的定制潜力,通过最终总结的质量和系统的可用性进行评估(第5.3节)。摘要的例子可以在补充材料中找到。
摘要的质量表1描述了受试者比发现任务(情景1)中的另一个摘要更好地排列总结的时间百分比。我们可以看到,AVS在两个数据集的测试基线,统一的和VMMR的两个基础上是很重要的。对于我们数据集中一半的摘要,AVS是首选或同样优先于手动注释。在UTEgo,AVS也更喜欢Lee,Ghosh和Grauman(2012)的方法。
请注意,CSumm中的手动和统一的比较表明,不是在所有情况下,受试者更喜欢手动摘要比起统一。这表明,CSumm中的视频摘要是非常主观的,因为主题可能更喜欢统一摘要比起另一个人的手动注释(回想起,正在评估手动摘要的主题不是这个摘要的作者,而是AVS的摘要)。这证明了CSumm的挑战性,并且更加放心,用户偏好的推论是视频摘要的关键组成部分。
图2 搜索任务中在每个问题之后对摘要进行评估(场景2)。对于问题系统是否设法为该视频提供了你的理想摘要?的答案是不太好Not at all(1),不怎么样Not much(2),一般般so so(3),差不多Pretty much(4)绝对(5)。(a)图例。(b)摘要的平均得分。(c)摘要所得的百分数,其得分大于或等于4。图最好以颜色展示。
当搜索特定事件(情景2)时,图2报告了每个问题回答满意的用户百分比。我们观察到两个问题之后的AVS摘要比CSumm的任何一个基线都好。对于UTEgo的视频,用户需要6个问题才能达到这一满意度。因此,通过与用户的小型交互,AVS实现比任何基线更好的结果。
然而,我们观察到,对于UTEgo,AVS仅获得比带随机问题的AVS略好的性能。我们调查了这一点,我们发现AVS的性能高度依赖于输入数据的图像质量。UTEgo的分辨率为320x 480像素(比Google眼镜的720x 1280像素低了4倍)。因此,使用神经网络提取的描述符导致几乎平坦的输出向量,使AVS难以区分不同的事件。
可用性我们比较在AVS生成自定义摘要和在发现任务中手动生成(仅在CSumm中,因为我们没有获得UTEgo的手动注释)所需的时间(场景1)。在表2中,我们可以看到,使用AVS创建摘要的速度比手动基准快4倍。这是对手动注释可用性的重大改进,因为AVS的质量与上述手动注释的质量具有竞争力。
表2 在CSumm中生成一个摘要的时间
寻找具体事件(情景2),我们可以在相同的搜索约束条件下比较AVS和带随机询问的AVS。我们在表3中显示了这样的主观评估。我们可以看到,大多数受试者在两个数据集上都更喜欢的随机基线上的主动推断,这与图2相符。这些结果表明估计下一个问题的有用性要求,反对选择随机段。
表3 AVS对随机基线的可用性的主观感知:得到每一个可能分数的摘要量
6 结论
我们提出了主动视频摘要(AVS),这是一种与用户进行交互的方法,可根据条件随机字段自定义视频摘要。为了评估我们的方法,我们引入了一个具有挑战性的数据集,用于可定制的消费者视频摘要,我们称之为CSumm。在一系列实验中,我们已经证明,AVS在摘要的可用性和质量之间取得了平衡。
将来,用户以前生成的摘要将用于了解他或她的偏好。这些摘要也将用于学习更好地与用户交互。我们正在调查进一步提高AVS可用性的一个组件是一系列问题——包括视频中的语义内容和人类行为之间的关系。
论文下载链接:
https://aaai.org/ocs/index.php/AAAI/AAAI17/paper/view/14856/14279