[发明专利]一种基于麦克风阵列与双目摄像头的说话人定位与识别方法有效

专利信息
申请号: 201810473571.5 申请日: 2018-05-17
公开(公告)号: CN108734733B 公开(公告)日: 2022-04-26
发明(设计)人: 莫凌飞;李英昊;厉叶 申请(专利权)人: 东南大学
主分类号: G06T7/70 分类号: G06T7/70;G06V40/16;G01S5/22;G10L17/04;G06N3/04
代理公司: 南京苏高专利商标事务所(普通合伙) 32204 代理人: 王安琪
地址: 211189 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于麦克风阵列与双目摄像头的说话人定位与识别方法,主要依托麦克风阵列和占用资源较少的TDOA方法进行说话人粗定位,之后再结合精度更高但是视野狭小的双目摄像头进行准确定位,在实现了精准的360°全方位声源定位的基础上大幅减少了软件开销,使得系统能够获得更高的刷新率,或者在空闲时间内执行其他任务;同时,本发明还利用了动态调整的加权平均方法来权衡声音和图像的识别结果使得最终系统输出的识别结果更为准确可靠。
搜索关键词: 一种 基于 麦克风 阵列 双目 摄像头 说话 人定 识别 方法
【主权项】:
1.一种基于麦克风阵列与双目摄像头的说话人定位与识别方法,其特征在于,包括如下步骤:(1)设置麦克风阵列、双目摄像头和双目摄像头所处的转动平台,分别构建目标人脸与i‑vector数据库并训练基于图像的人脸识别模型与基于音频的说话人识别模型;(2)将双目摄像头与麦克风阵列固定于旋转平台上,计算在当前环境中人脸识别模型与说话人识别模型的置信度wV与wA;(3)麦克风阵列首先记录一段音频,计算其平均功率作为环境功率;(4)当麦克风阵列检测到当前功率与环境功率的差值大于某阈值时,且持续时间大于某阈值时,系统开始记录声音,并使用TDOA方法计算声源坐标和该点与双目摄像头镜头方向在水平面内的夹角θ;(5)将旋转平台旋转θ角,双目摄像头采集图像信息,并使用Google提供的TensorFlow Object Detection API中的Single Shot MultiBox Detector in TensorFlow框架与模型识别图片中物体信息;若识别结果中不存在人体,则认为所记录声音音源非人,系统恢复待机;(6)对采集到的音频使用步骤(1)中构建的说话人识别模型进行说话人识别,取置信度最高的前五个结果A1,A2,…,A5;对采集到的图像中的所有n个“人体”部分使用步骤(1)中构建的人脸识别模型进行人脸识别,每个人体取置信度最高的前五个结果,最终为并将两种识别结果通过wA与wV进行加权平均,即对i=1~5与j=1~n,计算最大值则最终结果为:说话人是目标y,其身份为x;(7)利用双目定位技术确定目标当前位置,并结合θ角计算出目标在世界坐标系下的坐标。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810473571.5/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top