汽车融资租赁平台“来用车”获亿元A轮融资,欲做“零门槛购车”先行者
06-18
雷锋网注:【图片来源:Google 博客 所有者:Sudheendra Vijayanarasimhan 和 David Ross】如今,人们可以通过录制视频与朋友和亲人分享美好时光。
这已经不是什么新鲜事了。
然而,任何拥有大量视频资料的人都会告诉你一个事实:翻遍所有原始视频资料,找到值得重温或适合与家人朋友分享的完美视频片段是一项非常耗时的工作。
由于 Google 图片会自动找到视频中令人难忘的时刻并创建动画,因此可以快速捕获诸如吹灭蜡烛的孩子或跳入游泳池的朋友之类的事情。
这样,就可以更轻松地与朋友和家人分享美好时刻。
经过反复研究用于时间动作定位的 R-CNN 架构(TAL),自动化方面的一些困难已经得到解决。
这些问题的棘手部分是从数千种不同的排列中识别或分类数据。
因此,我们打造了TALNet,它可以识别一定时间内的大量瞬态动作。
目前,与其他方法相比,TALNet以最短的时间完成了这项任务。
它还允许 Google 图片推荐您视频中的最佳帧,以便您可以与朋友和家人分享。
雷锋网注:【图片来源:谷歌博客 博主:Sudheendra Vijayanarasimhan 和 David Ross】要识别视频中的精彩时刻,第一步是收集人们可能想要保留的动作时刻,比如吹灭生日蜡烛、猫然后,我们用特定动作对这些视频片段进行注释,以创建一个大型训练数据库。
之后,我们要求评估者找到并标记所有时刻。
最后,模型在这个带注释的数据集上进行训练,然后可以识别全新视频中所需的时刻。
识别这些动作属于计算机视觉领域,就像生活中常见的物体识别一样,属于视觉检测的范畴。
然而,TAL的目的是在一段未经剪辑的冗长视频中确定每个动作的开始和结束时间,并标记不同的动作(例如“吹灭蜡烛”)。
它更侧重于捕获包含一系列一维视频帧中的动作的时间段。
我们使用的 Yao 方法受到 R-CNN 2D 图像对象检测框架的启发。
因此,要了解TALNet,首先要了解R-CNN。
下图演示了如何使用R-CNN架构进行物体检测。
雷锋网注:【图片来源:Google 博客所有者:Sudheendra Vijayanarasimhan 和 David Ross】第一步是生成一组可以对图像中的对象进行分类的对象推荐。
在此之前,输入图像必须通过卷积神经网络(CNN)转换为二维特征图。
然后,对象推荐网络在候选对象周围生成边界框。

这些框是在多个尺度上生成的,以应对自然图像中对象尺寸的不确定性。
确定对象后,使用深度神经网络(DNN)将边界框中的对象分类为特定对象,例如“人”、“自行车”等。
以类似于R的方式完成时间动作定位-CNN。
视频输入帧序列首先被转换为编码场景的一维特征图序列。
该映射被传递到视频片段推荐网络,该网络生成候选片段,每个候选片段由开始时间和结束时间定义。
然后,DNN 对视频剪辑中的动作进行分类,例如扣篮和传球。
雷锋网注:【图片来源:Google 博客 所有者:Sudheendra Vijayanarasimhan 和 David Ross】虽然时间动作定位可以被视为对象检测的一维对应物,但在处理动作定位时有一些值得注意的问题。
为了将R-CNN方法应用到动作定位领域,我们特意解决了三个问题,并重新设计了架构来专门解决这些问题。
1. 行动的持续时间更加可变。
执行动作的时间范围变化很??大,可以从几秒到几分钟不等。
对于长动作来说,了解动作的每一帧并不重要。
相反,我们可以使用扩展时间卷积通过快速扫描视频来更好地处理此动作。
该方法允许 Yao 在视频中搜索动作,同时根据设定的膨胀率跳过交替帧。
根据锚点片段的长度自动选择不同码率的视频进行分析,可以有效识别大至整个视频或短至一秒的动作。
2、目标行动前后的内容非常重要。
目标动作前后的内容包含了定位和分类的关键信息。
我们这里说的是时间之前和之后,而不是空间之前和之后。
因此,我们在推荐生成和分类生成阶段,通过在时间前后按一定比例扩展目标片段来对时间内容进行编码。
3.目标动作需要多模态输入目标动作是由外观、运动轨迹、有时甚至是音频信息来定义的。
因此,为了获得最佳结果,考虑多种形式的特征非常重要。
我们对推荐生成网络和分类网络都使用后期融合方案,其中每种模式都有一个单独的推荐生成网络,并且这些网络的输出被组合以获得最终的推荐集。
这些建议使用单独的分类网络对每种模式进行分类,然后进行组合和平均以获得最终的预测。
由于这些改进,Yao 在 THUMOS 的 14 个检测基准上的动作推荐和动作定位方面表现最好,并在 ActivityNet 项目中展示了其竞争力。
现在,每当人们将视频保存到谷歌图片时,该模型就会开始识别这些视频并创建动画来分享。
我们不断改进并使用更多的数据、特征和模型来提高动作定位的准确性。
时间动作定位的改进可以推动许多重要功能的进步,例如视频集锦、视频摘要和视频搜索。
我们希望继续推进这一领域的技术水平,同时为人们提供更多方式来回忆他们的珍贵记忆。
雷锋网注:本文编译自Google AI Blog【封面图片来源:网站名称Google AI Blog,所有者:Sudheendra Vijayanarasimhan 和 David Ross】雷锋网版权所有文章,未经授权禁止转载。
详情请参阅转载说明。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-18
06-18
06-18
06-18
06-18
06-17
06-18
最新文章
3月,腾讯《王者荣耀》在全球App Store和Google Play吸引了2.57亿美元,同比增长63%
生鲜传奇宣布完成数亿元B+轮融资
裁员20%?红杉中国回应:胡说,员工总数不降反升
第二次影视创新“闯”短剧世界:看、留、跳都是钱
ASML:从飞利浦弃儿到光刻之王
宁康瑞珠获数千万元A轮融资 横琴金投、翰颐资本投资
智能金融服务生态平台科客完成A+轮融资
拼多多九鼎:信息披露无懈可击,竞争对手才是“浇水”的