录:【 图片来源:Google Blog 所有者:Sudheendra Vijayanarasimhan and David Ross 】如今,人们可以通过录音视频的方式与朋友和爱人共享美好时光,这早已仍然是什么新鲜事。然而,每个享有大量视频素材的人都会告诉他你这样一个事实:迭代所有完整视频素材,找寻有一点重温,或者合适与家人朋友分享的极致视频片段,是一项十分耗时的工作。由于谷歌图片不会自动在视频中找寻具备纪念意义的画面,并创立动画,所以,像孩子吹灭蜡烛的瞬间,或者朋友跳入泳池的瞬间,诸如此类的画面都可以被较慢捕猎。
这样一来,与朋友和家人共享动人瞬间就更容易多了。在反复研究了用作时序动作定位(TAL)的R-CNN架构之后,自动化方面的一些难题已解决问题。
这些难题的棘手之处在于,从千万种有所不同排序的数据中已完成辨识或分类。因此,我们创建了TALNet,它能在一定时间内辨识大量的短暂性动作。
目前来说,比起起其他方法,TALNet已完成这个任务的用时最较短。它还容许谷歌图片引荐视频的最佳画面,让你可以与朋友和家人共享。录:【 图片来源:Google Blog 所有者:Sudheendra Vijayanarasimhan and David Ross 】想辨识视频中的动人瞬间,第一步是将人们有可能期望保有的动作瞬间集合起来,比如吹灭生日蜡烛,猫摇尾巴等。然后,我们将这些具有特定动作的视频片段展开注解,以创立一个大型培训数据库。
之后,我们不会拒绝审定员找到并标记所有时刻。最后,模型经过这个带上注解的数据集训练,之后就可以在全新的视频中辨识所需的瞬间。
辨识这些动作归属于计算机视觉领域,它与生活中少见的对象辨识一样,归属于视觉检测的范畴。然而,TAL的目的是,在一个冗长且并未遮荫的视频里,标识每个动作的开始和完结时间,并给有所不同的动作贴上标签(如“吹灭蜡烛”)。它更加注重在一维视频帧序列中捕猎包括动作的时间片段。我们用于的TALNet方法是受到了R-CNN二维图像对象检测框架的灵感。
因此,要解读TALNet,首先要解读R-CNN。右图展示了如何用于R-CNN架构展开对象检测。录:【 图片来源:Google Blog 所有者:Sudheendra Vijayanarasimhan and David Ross 】第一步是分解一组对象引荐,可以对图像中的对象展开分类。在此之前,要再行通过卷积神经网络(CNN)将输出图像切换为二维特征图。
然后,对象引荐网络环绕候选对象分解围困板。这些框是在多个尺度上分解的,以便应付大自然图像中对象大小的不确定性。
在对象确认之后,用于深度神经网络(DNN)将边界板中的对象分类为特定对象,比如“人”、“自行车”等。时序动作定位是用一种类似于R-CNN的方式已完成的。首先将视频输出帧序列切换为编码场景的一维特征同构序列。此同构被传送到一个视频段引荐网络,该网络分解候选段,每个候选段由开始和完结时间来定义。
然后,DNN对视频片段中的动作展开分类,比如灌篮、传球。录:【 图片来源:Google Blog 所有者:Sudheendra Vijayanarasimhan and David Ross 】虽然时序动作定位可以看做是对象检测的一维对应物,但是,处置动作定位有一些值得注意的问题。为了将R-CNN方法应用于到动作定位领域,我们特地解决问题了三个问题,并新的设计了体系结构来专门解决问题这些问题。1.动作在持续时间方面变量更大动作继续执行的时间范围变化很大,可以从几秒钟到几分钟平均。
对于长时间的动作,解读动作的每一个框架并不最重要。忽略,我们可以通过较慢网页视频,用于拓展的时间卷积来更佳地处置这个动作。这种方法容许TALNet搜寻视频中的动作,同时根据既定的膨胀率跳过交错帧。
根据锚段的长度自动自由选择有所不同速率的视频展开分析,可以有效地辨识大至整个视频或较短至一秒的动作。2.目标动作前后的内容很最重要目标动作前后的内容包括了定位和分类的关键信息,这里说道的是时间前后,而不是空间前后。因此,我们在时间内容上展开了编码,方法是在引荐分解和分类分解的阶段,将目标段在时间前后上按一定比例拓展。
3.目标动作必须多模式输出目标动作由外观、运动轨迹,有时甚至是音频信息来定义。因此,为了获得最佳的结果,考虑到特征的多种形式是很最重要的。
我们对引荐分解网络和分类网络都用于了一种后期融合方案,其中每种模式都有一个分开的引荐分解网络,这些网络的输入人组在一起才能获得最后的引荐集。这些引荐用于分开的分类网络对每种模式展开分类,然后经过综合平均值获得最后的预测。
由于这些改良,在THUMOS的14检测基准上,TALNet在动作引荐和行动定位方面展现出最佳,并在ActivityNet项目中展出了其竞争力。现在,每当人们将视频留存到谷歌图片中时,模型就不会开始辨识这些视频并创立动画来分享。我们正在不断完善,用于更好的数据、特性和模型来提升动作定位的精度。
时序动作定位的改良可以推展视频亮点、视频概要、视频搜寻等许多最重要功能的进展。我们期望之后提升这一领域的技术水平,同时为人们获取更加多方式来回忆他们宝贵的记忆。(公众号:)录:本文编译器自Google AI Blog【封面图片来源:网站名Google AI Blog,所有者:Sudheendra Vijayanarasimhan and David Ross】版权文章,予以许可禁令刊登。
下文闻刊登须知。
本文关键词:开云|kaiyun,开云|kaiyun(官方)最新下载IOS/安卓版/手机版APP
本文来源:开云|kaiyun-www.ymtnb.com