[发明专利]视频理解方法及装置有效
申请号: | 201610509780.1 | 申请日: | 2016-07-01 |
公开(公告)号: | CN107563257B | 公开(公告)日: | 2021-06-15 |
发明(设计)人: | 俞刚;李超;何奇正;陈牧歌;彭雨翔;吕凯风;印奇 | 申请(专利权)人: | 北京旷视科技有限公司;北京迈格威科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06T7/55 |
代理公司: | 北京市磐华律师事务所 11336 | 代理人: | 高伟;卜璐璐 |
地址: | 100190 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 理解 方法 装置 | ||
1.一种视频理解方法,其特征在于,所述视频理解方法包括:
获取视频数据;
对所获取的视频数据进行场景深度估计;以及
基于所述场景深度估计的结果进行场景内容理解;
所述场景深度估计进一步包括:
对所述视频数据中的至少一帧进行特征提取;以及
基于所提取的特征进行视频序列整合以得到场景深度信息;
其中,所述基于所提取的特征进行视频序列整合以得到场景深度信息包括:
利用第一循环神经网络基于所提取的特征整合空间上的背景信息;
利用第二循环神经网络基于时间轴上的信息对所述第一循环神经网络的输出进行平滑,以得到场景深度信息,所述场景深度信息包括深度图,其中所述深度图上的每个像素点表示所述像素点对应的物体到摄像头的距离。
2.根据权利要求1所述的视频理解方法,其特征在于,所述视频理解方法还包括:
在获取所述视频数据后对所述视频数据进行多尺度操作,并且
所述场景深度估计和所述场景内容理解在多个尺度上进行;以及
将多个尺度上的场景内容理解结果进行融合。
3.根据权利要求1所述的视频理解方法,其特征在于,所述特征提取利用第一卷积神经网络实现,所述视频序列整合利用第一时序神经网络实现。
4.根据权利要求3所述的视频理解方法,其特征在于,所述第一卷积神经网络通过将训练好的标准卷积神经网络剔除全连接层后得到。
5.根据权利要求4所述的视频理解方法,其特征在于,所述第一卷积神经网络还包括损失层,以用于实现网络正则化。
6.根据权利要求1所述的视频理解方法,其特征在于,所述视频序列整合包括空间信息整合和时间信息整合。
7.根据权利要求3所述的视频理解方法,其特征在于,所述第一时序神经网络包括所述第一循环神经网络和所述第二循环神经网络。
8.根据权利要求1至7任一项所述的视频理解方法,其特征在于,所述场景内容理解进一步包括:
基于所述视频数据和所述场景深度估计的结果对场景进行分析,以得到像素级的类别输出;以及
基于所述像素级的类别输出进行空间信息整合和时间信息整合。
9.根据权利要求8所述的视频理解方法,其特征在于,所述对场景的分析利用第二卷积神经网络实现,所述空间信息整合和时间信息整合利用第二时序神经网络实现。
10.根据权利要求9所述的视频理解方法,其特征在于,所述第二时序神经网络包括第三循环神经网络和第四循环神经网络,其中,所述基于所述像素级的类别输出进行空间信息整合和时间信息整合包括:
利用所述第三循环神经网络,基于所述像素级的类别输出进行空间信息的整合;
利用所述第四循环神经网络,基于时间轴上的信息对所述第三循环神经网络的输出进行时间信息整合,以得到场景内容理解结果。
11.根据权利要求2所述的视频理解方法,其特征在于,所述将多个尺度上的场景内容理解结果进行融合包括:
利用第三卷积神经网络对多个尺度上的场景内容理解结果进行融合。
12.根据权利要求1所述的视频理解方法,其特征在于,所述基于所述场景深度估计的结果进行场景内容理解包括:
基于所述场景深度估计的结果以及前一帧的场景内容理解结果,进行当前帧的场景内容理解。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京旷视科技有限公司;北京迈格威科技有限公司,未经北京旷视科技有限公司;北京迈格威科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610509780.1/1.html,转载请声明来源钻瓜专利网。