[发明专利]一种视频处理方法、装置、电子设备以及介质在审
申请号: | 201911395074.9 | 申请日: | 2019-12-30 |
公开(公告)号: | CN111046847A | 公开(公告)日: | 2020-04-21 |
发明(设计)人: | 王智康;马原 | 申请(专利权)人: | 北京澎思科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/08 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 马敬;李欣 |
地址: | 100016 北京市朝*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视频 处理 方法 装置 电子设备 以及 介质 | ||
本公开实施例提供了一种视频处理方法、装置、电子设备以及介质,涉及计算机技术领域,所述方法包括:提取包含目标的视频中每个视频帧对应的特征图,根据每个特征图的像素点分布,确定每个特征图对应的水平注意力特征向量以及垂直注意力特征向量,将每个特征图对应的水平注意力特征向量和垂直注意力特征向量进行特征拼接,得到每个特征图对应的注意力特征向量,对包含目标的视频中所有视频帧的特征图对应的注意力特征向量进行向量聚合操作,得到包含目标的视频对应的代表特征向量。采用本公开可以使得代表特征向量可以准确地体现包含目标的视频帧中的重要的特征。
技术领域
本公开涉及计算机技术领域,特别是涉及一种视频处理方法、装置、电子设备以及介质。
背景技术
目前,随着人工智能、计算机视觉和硬件技术的发展,视频图像处理技术广泛的存在智能城市系统的应用之中。电子设备可以基于行人重识别技术(Person Re-Identification),根据一段包括目标行人的视频,确定一个视频查询库中所有包括该目标行人的视频。
发明内容
本公开实施例的目的在于提供一种视频处理方法、装置、电子设备以及介质,以使得代表特征向量可以准确地体现包含目标的视频帧中的重要的特征。
第一方面,提供了一种视频处理方法,所述方法应用于电子设备,所述方法包括:
提取包含目标的视频中每个视频帧对应的特征图;
根据每个特征图的像素点分布,确定每个特征图中每行像素点在所属特征图中的权重,并基于每行像素点在所属特征图中的权重,确定每个特征图对应的水平注意力特征向量;
根据每个特征图的像素点分布,确定每个特征图中每列像素点在所属特征图中的权重,并基于每列像素点在所属特征图中的权重,确定每个特征图对应的垂直注意力特征向量;
将每个特征图对应的水平注意力特征向量和垂直注意力特征向量进行特征拼接,得到每个特征图对应的注意力特征向量;
对所述包含目标的视频中所有视频帧的特征图对应的注意力特征向量进行向量聚合操作,得到所述包含目标的视频对应的代表特征向量。
可选的,所述根据每个特征图的像素点分布,确定每个特征图中每行像素点在对应特征图中的权重,并基于每行像素点在对应特征图中的权重,确定每个特征图对应的水平注意力特征向量,包括:
针对每个特征图,对所述特征图进行全局平均池化操作,得到所述特征图对应的第一特征向量;
对所述第一特征向量进行压缩操作和解码操作,得到第二特征向量;
分别对所述特征图中的每行像素点进行求和操作,得到所述特征图中每行像素点对应的第三特征向量;
对每个第三特征向量进行逻辑回归操作,得到每个第三特征向量对应的注意力值,将每个第三特征向量对应的注意力值分别作为每个第三特征向量的权重,对所述特征图中每行像素点对应的第三特征向量进行加权求和运算,得到第四特征向量;
将所述第二特征向量与所述第四特征向量的乘积作为所述特征图对应的水平注意力特征向量。
可选的,所述根据每个特征图的像素点分布,确定每个特征图中每列像素点在对应特征图中的权重,并基于每列像素点在对应特征图中的权重,确定每个特征图对应的垂直注意力特征向量,包括:
针对每个特征图,对所述特征图进行全局平均池化操作,得到所述特征图对应的第五特征向量;
对所述第五特征向量进行压缩操作和解码操作,得到第六特征向量;
分别对所述特征图中的每列像素点进行求和操作,得到所述特征图中每列像素点对应的第七特征向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京澎思科技有限公司,未经北京澎思科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911395074.9/2.html,转载请声明来源钻瓜专利网。