[发明专利]视频人物识别方法、装置、存储介质与电子设备在审

申请号：	201911029707.4	申请日：	2019-10-28
公开（公告）号：	CN110909613A	公开（公告）日：	2020-03-24
发明（设计）人：	彭冬炜	申请（专利权）人：	OPPO广东移动通信有限公司
主分类号：	G06K9/00	分类号：	G06K9/00;G10L17/04;G06K9/62
代理公司：	深圳市隆天联鼎知识产权代理有限公司 44232	代理人：	刘抗美
地址：	523860 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	视频人物识别方法装置存储介质电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种视频人物识别方法，其特征在于，包括：

从目标视频中获取关键帧图像；

从所述关键帧图像中提取人物外观特征；

根据所述关键帧图像在所述目标视频中的时间，从所述目标视频的音频中截取所述关键帧图像对应的子音频，从所述子音频中提取声纹特征；

利用预先训练的融合模型对所述人物外观特征和所述声纹特征进行处理，得到所述目标视频的人物识别结果。

2.根据权利要求1所述的方法，其特征在于，所述人物外观特征包括人脸特征；

所述从所述关键帧图像中提取人物外观特征，包括：

检测所述关键帧图像中的人脸区域，以从所述关键帧图像中截取人脸子图像；

利用预先训练的卷积神经网络从所述人脸子图像中提取所述人脸特征。

3.根据权利要求1所述的方法，其特征在于，所述利用预先训练的融合模型对所述人物外观特征和所述声纹特征进行处理，得到所述目标视频的人物识别结果，包括：

将所述人物外观特征和所述声纹特征合并，得到综合特征；

将所述综合特征输入所述融合模型，以输出所述目标视频的人物识别结果。

4.根据权利要求3所述的方法，其特征在于，在将所述人物外观特征和所述声纹特征合并前，所述方法还包括：

根据所述关键帧图像在所述目标视频中的时间，以及所述子音频在所述目标视频中的时间区间，确定时间特征；

所述将所述人物外观特征和所述声纹特征合并，得到综合特征，包括：

将所述人物外观特征、所述声纹特征和所述时间特征进行合并，得到所述综合特征。

5.根据权利要求1所述的方法，其特征在于，所述声纹特征包括梅尔频率倒谱系数；所述从所述子音频中提取声纹特征，包括：

对所述子音频进行预处理；

对预处理后的所述子音频进行傅里叶变换，得到所述子音频对应的频谱；

根据所述频谱计算出对应的幅度谱；

对所述幅度谱进行梅尔滤波处理，以计算出所述子音频的梅尔频率倒谱系数；

将所述梅尔频率倒谱系数转换为声纹特征向量，并进行后处理。

6.根据权利要求5所述的方法，其特征在于，所述预处理包括以下任意一种或多种：提取语音信号、预加重、分帧、加窗处理；

所述后处理包括以下任意一种或多种：去均值、归一化、降维处理。

7.根据权利要求5所述的方法，其特征在于，所述声纹特征还包括以下任意一种或多种：广义梅尔倒谱系数、谱包络与能量特征、基频、浊音/轻音分类特征、频带非周期分量。

8.一种视频人物识别装置，其特征在于，包括：

图像获取模块，用于从目标视频中获取关键帧图像；

第一提取模块，用于从所述关键帧图像中提取人物外观特征；

第二提取模块，用于根据所述关键帧图像在所述目标视频中的时间，从所述目标视频的音频中截取所述关键帧图像对应的子音频，从所述子音频中提取声纹特征；

特征处理模块，用于利用预先训练的融合模型对所述人物外观特征和所述声纹特征进行处理，得到所述目标视频的人物识别结果。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述的方法。

10.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至7任一项所述的方法。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于OPPO广东移动通信有限公司，未经OPPO广东移动通信有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911029707.4/1.html，转载请声明来源钻瓜专利网。

上一篇：以9-醛基-10-咪蒽腙为配体的双核金属配合物及其合成方法和应用
下一篇：中空玻璃用边缘密封涂层及其制备方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]视频人物识别方法、装置、存储介质与电子设备在审

专利文献下载