[发明专利]一种基于麦克风阵列与双目摄像头的说话人定位与识别方法有效
申请号: | 201810473571.5 | 申请日: | 2018-05-17 |
公开(公告)号: | CN108734733B | 公开(公告)日: | 2022-04-26 |
发明(设计)人: | 莫凌飞;李英昊;厉叶 | 申请(专利权)人: | 东南大学 |
主分类号: | G06T7/70 | 分类号: | G06T7/70;G06V40/16;G01S5/22;G10L17/04;G06N3/04 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 王安琪 |
地址: | 211189 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 麦克风 阵列 双目 摄像头 说话 人定 识别 方法 | ||
1.一种基于麦克风阵列与双目摄像头的说话人定位与识别方法,其特征在于,包括如下步骤:
(1)设置麦克风阵列、双目摄像头和双目摄像头所处的转动平台,分别构建目标人脸与i-vector数据库并训练基于图像的人脸识别模型与基于音频的说话人识别模型;
(2)将双目摄像头与麦克风阵列固定于旋转平台上,计算在当前环境中人脸识别模型与说话人识别模型的置信度wV与wA;
(3)麦克风阵列首先记录一段音频,计算其平均功率作为环境功率;
(4)当麦克风阵列检测到当前功率与环境功率的差值大于某阈值,且持续时间大于某阈值时,系统开始记录声音,并使用TDOA方法计算声源坐标和该点与双目摄像头镜头方向在水平面内的夹角θ;
(5)将旋转平台旋转θ角,双目摄像头采集图像信息,并使用Google提供的TensorFlowObject Detection API中的Single Shot MultiBox Detector in TensorFlow框架与模型识别图片中物体信息;若识别结果中不存在人体,则认为所记录声音音源非人,系统恢复待机;
(6)对采集到的音频使用步骤(1)中构建的说话人识别模型进行说话人识别,取置信度最高的前五个结果A1,A2,···,A5;对采集到的图像中的所有n个“人体”部分使用步骤(1)中构建的人脸识别模型进行人脸识别,每个人体取置信度最高的前五个结果,最终为并将两种识别结果通过wA与wV进行加权平均,即对i=1~5与j=1~n,计算取最大值则最终结果为:说话人是目标y,其身份为x;
(7)利用双目定位技术确定目标当前位置,并结合θ角计算出目标在世界坐标系下的坐标。
2.如权利要求1所述的基于麦克风阵列与双目摄像头的说话人定位与识别方法,其特征在于,步骤(1)中,麦克风阵列中包含不少于三颗麦克风。
3.如权利要求1所述的基于麦克风阵列与双目摄像头的说话人定位与识别方法,其特征在于,步骤(1)中,使用CNN训练人脸识别模型,CNN的结构依次为输入层、卷积层1、池化层1、卷积层2、池化层2、卷积层3、池化层3、全连接层1、全连接层2、输出层;其中,所有卷积层的卷积核大小为3×3,步长为1;池化层的池化方式为最大池化,核的大小为2×2,步长为2;卷积层1的深度为16,卷积层2的深度为32,卷积层3的深度为64;两层全连接层的神经元数量都为256个。
4.如权利要求1所述的基于麦克风阵列与双目摄像头的说话人定位与识别方法,其特征在于,步骤(1)中,使用DNN训练说话人识别模型,DNN有四层全连接层,每层的神经元数量为256个。
5.如权利要求1所述的基于麦克风阵列与双目摄像头的说话人定位与识别方法,其特征在于,步骤(2)中,计算在当前环境中人脸识别模型与说话人识别模型的置信度wV与wA具体为:在当前环境下使双目摄像头对准数据库中存在人脸数据的说话人甲,运行人脸识别程序n次,得到n个人脸识别输出为“甲”的置信度计算人脸识别的平均置信度接着,让甲开始不停说话,运行说话人识别程序n次,得到n个说话人识别输出为“甲”的置信度计算人脸识别的平均置信度最后,计算出人脸识别模型与说话人识别模型的置信度wV与wA分别为
6.如权利要求1所述的基于麦克风阵列与双目摄像头的说话人定位与识别方法,其特征在于,步骤(4)中,当前功率与环境功率的差值大于的阈值为1kW,持续时间大于的阈值为50ms。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810473571.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:生成车辆环境的占用地图的方法、装置和系统
- 下一篇:室内定位方法及系统