[发明专利]一种360度全方位的说话人视觉空间定位方法有效
申请号: | 202110504362.4 | 申请日: | 2021-05-10 |
公开(公告)号: | CN113327286B | 公开(公告)日: | 2023-05-19 |
发明(设计)人: | 刘振焘;龙映佐;吴敏;熊永华;周莉;金浩然 | 申请(专利权)人: | 中国地质大学(武汉) |
主分类号: | G06T7/73 | 分类号: | G06T7/73;G06T3/40;G06V40/16;G06V40/20 |
代理公司: | 武汉知产时代知识产权代理有限公司 42238 | 代理人: | 万文广 |
地址: | 430000 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 360 全方位 说话 视觉 空间 定位 方法 | ||
本发明公开了一种360度全方位的说话人视觉空间定位方法,包括:开启环形规则分布的360度全景摄像头组,进行人脸检测,并判断目标用户存在交互意图,否则继续进行人脸和嘴唇跟踪;判断是否对存在交互意图的目标用户的人脸进行图像拼接,拼接好的图像将用于视觉空间定位;否则直接选择对应摄像画面;根据人脸图像画面进行人脸图像定位;依据图像定位结果和其对应摄像头组在环形规则分布的360度全景摄像头组的位置,进行坐标系转换,本发明可以在360度全方位对说话人进行精确、实时定位。
技术领域
本发明涉及说话人定位的技术领域,具体涉及一种360度全方位的说话人视觉空间定位方法。
背景技术
随着互联网、移动智能终端和智能机器人的快速发展,人与机器之间的交互也越来越频繁,以人为中心、自然、高效是发展新一代人机交互方式的主要目标。而在实际的人机交互系统中,目标定位功能是交互系统中的第一个需要解决的重要问题。获取了目标用户位置后,机器可以进行后续的定向语音识别、情感识别以及为用户提供定向服务等操作,且交互系统可以在期望方向上拾取更准确的目标信息,从而提供精准的服务和反馈。
现有的目标说话人定位方法往往依赖于深度摄像头或者双目摄像头,以及其他传感器,这些方法往往受限于定位设备的有限的定位方位角,无法对其他位置的说话人进行定位。已公开的改进方案注重利用麦克风或者其他传感器进行辅助定位,之后利用转动平台等带动摄像头进行视觉空间定位。但这些方法存在一定的定位延时,如果目标说话人移位则定位效率、定位精度都存在不确定性。
发明内容
有鉴于此,本发明提供了一种360度全方位的说话人视觉空间定位方法,包括以下步骤:
S1、开启环形规则分布的360度全景摄像头组,进行人脸检测,在检测到人脸后,进行人脸和嘴唇跟踪,当目标人物朝摄像机方向说话时,判断目标用户存在交互意图,否则继续进行人脸和嘴唇跟踪;
S2、图像拼接决策:判断是否对S1中存在交互意图的目标用户的人脸进行图像拼接,拼接好的图像将用于视觉空间定位;否则直接选择对应摄像画面;
S3、根据由图像拼接决策得到的含人脸图像,进行人脸视觉空间定位;
S4、将视觉空间定位的结果转换到世界坐标系中,完成全方位视觉空间定位。
进一步地,S2所述图像拼接决策是判断说话人是否位于说话人所在方位最近两枚摄像头的摄像画面交接区域,当说话人位于摄像画面交接区域时,唤醒说话人所在方位的两个相邻摄像头,并对这两个摄像头的摄像画面进行图像拼接。
进一步地,S3所述的视觉空间定位方法如下:
S31:使用人脸检测算法,调用人脸检测分类器,捕捉目标人脸并用矩形框画出;
S32:记录当前画面帧人脸矩形框四个角的位置坐标(x1,y1),(x1,y2), (x2,y1),(x2,y2),坐标系中心为当前摄像画面中心点;
S33:计算人脸中心位置
S34:计算人脸方位角:其中α为当前摄像画面所占的范围角,X为当前摄像画面的横向像素总长度;
S35:计算人脸俯仰角:其中β为摄像头的俯仰角,Y 为当前摄像画面纵向像素总长度。
进一步地,S4所述的坐标系转换方法如下:
设环形规则分布的360度全景摄像头组共有N个摄像头,以顺时针方向从1到N-1给摄像头编号,方向1号摄像头拍摄中心为世界坐标系中心,则由在第k个摄像机拍摄到的人脸由图像坐标转换世界坐标时,有
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质大学(武汉),未经中国地质大学(武汉)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110504362.4/2.html,转载请声明来源钻瓜专利网。