[发明专利]一种多视角视频识别方法及装置、设备和存储介质有效
申请号: | 201810870738.1 | 申请日: | 2018-08-02 |
公开(公告)号: | CN109558781B | 公开(公告)日: | 2021-07-02 |
发明(设计)人: | 王东昂;欧阳万里;李文;徐东 | 申请(专利权)人: | 北京市商汤科技开发有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 王军红;张颖玲 |
地址: | 100084 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视角 视频 识别 方法 装置 设备 存储 介质 | ||
本申请实施例提供一种多视角视频识别方法及装置、设备和存储介质,其中,获取待识别的多视角视频;其中,所述多视角视频至少包括两个视角对应的视频;将所述多视角视频输入经过训练得到的神经网络模型,得到所述多视角视频的识别结果,其中,所述神经网络模型包括确定所述多视角视频在不同视角下的特异性特征,并对所述在不同视角下的特异性特征进行分类,得到所述多视角视频的识别结果;输出所述多视角视频的识别结果。
技术领域
本申请实施例涉及计算机图像处理技术领域,涉及但不限于一种多视角视频识别方法及装置、设备和存储介质。
背景技术
对视频人员行为的建模是计算机视觉以及智能视频监控领域的重要问题。行为识别模型可以在很多领域有重要应用,如异常行为的检测、人员动作预测等,同时行为识别模型也是其他更加复杂的智能系统的基础。
以神经网络为基础的深度学习技术在行为识别中已经取得了很好的成果,对于单一视角视频的行为识别精度超过了90%。然而多视角视频的建模更加复杂,这是因为在多视角视频中,不同的行为可能因为遮挡和视角,体现出相似的特征;相同的行为也可能因为视角不同而体现出完全不同的特征。这些信息可能会对建模造成干扰,从而降低识别的准确程度。相关技术中采用多视角视频行为识别方法多局限于学习各个视角的共有特征,并以此为基础进行多视角视频的建模。这些方法大多忽略了对各个视角特有特征的使用,因而识别精度有限。
发明内容
有鉴于此,本实施例提供一种多视角视频识别方法及装置、设备和存储介质。
本实施例的技术方案是这样实现的:
本实施例提供一种多视角视频识别方法,所述方法包括:
获取待识别的多视角视频;其中,所述多视角视频至少包括两个视角对应的视频;
将所述多视角视频输入经过训练得到的神经网络模型,得到所述多视角视频的识别结果,其中,所述神经网络模型包括确定所述多视角视频在不同视角下的特异性特征,并对所述在不同视角下的特异性特征进行分类,得到所述样本视频的识别结果;
输出所述多视角视频的识别结果。
在本实施例中,所述神经网络模型包括第一部分和第二部分,所述方法包括:
采用所述第一部分确定所述多视角视频在不同视角下的特异性特征;
采用所述第二部分对所述在不同视角下的特异性特征进行分类,得到所述样本视频的识别结果。
在本实施例中,所述神经网络模型还包括第三部分,所述方法包括:
采用所述第三部分对所述在不同视角下的特异性特征进行调整,得到调整后的特异性特征;对应地,采用所述第二部分对所述调整后的特异性特征进行分类,得到所述样本视频的识别结果。
在本实施例中,所述第一部分包括共享神经网络和V个分支神经网络,V为大于等于2的整数,所述方法包括:
采用所述共享神经网络确定所述多视角视频在不同视角下公共特征;
采用所述V个分支神经网络中的每一分支神经网络从所述公共特征中提取在对应视角下的特异性特征;其中,每一所述分支神经网络一一对应一个视角。
在本实施例中,所述第二部分包括V组分类器,每一组分类器包括V个分类器,所述采用所述第二部分对所述在不同视角下的特异性特征进行分类,得到所述样本视频的识别结果,包括:
根据所述特异性特征和所述第二部分中一组分类器的V个分类器,确定动作类别向量;其中,所述动作类别向量的维度与动作类别的数量相同,所述动作类别向量中的每一数值用于表征特异性特征属于对应动作类别的概率;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京市商汤科技开发有限公司,未经北京市商汤科技开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810870738.1/2.html,转载请声明来源钻瓜专利网。