[发明专利]一种基于RGB-D相机和人脸识别的视障人士辅助方法有效
申请号: | 201611140457.8 | 申请日: | 2016-12-12 |
公开(公告)号: | CN106874830B | 公开(公告)日: | 2019-09-24 |
发明(设计)人: | 于红雷;赵向东;杨恺伦;胡伟健;汪凯巍 | 申请(专利权)人: | 杭州视氪科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06F16/583 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 310000 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 rgb 相机 识别 人士 辅助 方法 | ||
1.一种基于RGB-D相机和人脸识别的视障人士辅助方法,其特征在于,具体步骤如下:
(1)人脸的录入和人脸数据库的建立;
针对每一个识别对象,分别采集多帧连续的彩色图像和深度图像,进一步通过RGB-D中的彩色图像通道检出人脸图像,以第一帧中检出的人脸图像作为人脸跟踪的初始化起点;若在第n帧中出现人脸漏检或检测错误,则可以启动人脸跟踪模式,检出人脸的区域;录入所有识别对象的人脸图像数据和对应的姓名,建立人脸数据库;所述人脸跟踪模式包括以下步骤:
第一,在第n-1帧的人脸检出情况下,分别计算彩色图和深度图中的人脸区域的直方图;彩色直方图的横坐标为色度值,纵坐标为每个色度值对应的像素的个数;深度直方图的横坐标为深度值,纵坐标为每个深度值对应的像素的个数;
第二,在第n帧中,计算彩色图和深度图的反向投影图;彩色图对应的反向投影图是将彩色图中的每个像素点的色度值替换为彩色直方图中对应的纵坐标而获得;深度图对应的反向投影图是将深度图中的每个像素点的深度值替换为深度直方图中对应的纵坐标而获得;将两个反向投影图融合后,得到更符合实际情况的人脸区域预测;
第三,在融合后的反向投影图中,应用均值漂移算法MeanShift,计算出第n帧人脸的区域;
(2)人脸图像的矫正;
(3)神经网络训练;
(4)识别人脸;
(5)3D立体声用于识别结果的交互。
2.根据权利要求1所述的方法,其特征在于,所述步骤(2)具体为:
第一,调整人脸图像的格式为统一大小,即100像素*100像素;
第二,检出人脸区域的特征点,所述特征点包括脸颊轮廓、眼睛、眉毛、鼻子和嘴巴;所述特征点的检出是基于彩色图像的;
第三,以具有上述特征点的三维人脸模型为基准坐标系,根据彩色图像中的特征点位置,对RGB-D进行坐标标定,得到相机坐标系;
第四,三维模型中的所有点被投影到所述相机坐标系中;
第五,将彩色图像投影到相机坐标系下的三维模型中,赋予每个点的RGB信息;
第六,对赋值后的三维模型进行正面投影,得到矫正后的人脸图像;
第七,转彩色人脸图像为灰度图,并做直方图均衡化处理。
3.根据权利要求1所述的方法,其特征在于,所述步骤(3)具体为:矫正得到的人脸图像,大小统一为100像素*100像素,可以视作一个10000维的向量;然后通过主成分分析PCA进行降维处理;
每一个人脸对应一个由0和1组成的数据标签,第m个人脸的数据标签为[a1,a2,…am,…ak],其中,am=1,其余为0,k为人脸总数;以降维后的数据作为输入,数据标签作为输出,用反向传播算法BP训练神经网络模型。
4.根据权利要求1所述的方法,其特征在于,通过以下方法进行识别:
采集待识别的人脸图像,经过矫正、降维处理,再输入训练好的神经网络,在输出向量的各个元素中,若只有一个是大于阈值0.5的,则判定输入数据所属的类别为此向量元素对应的类;若有多于一个元素的值大于阈值或所有元素的值都小于阈值,则判定输入数据不属于训练时的数据集,在人脸识别中即为陌生人。
5.根据权利要求1所述的方法,其特征在于,通过以下方法交互:
根据步骤(4)识别的人脸,获得其姓名,进一步根据深度图可以获知其方位和距离;以3D声音播放姓名给使用者,3D声音的角度用于指示人脸的方位,3D声音的大小用于指示人脸的距离。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州视氪科技有限公司,未经杭州视氪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611140457.8/1.html,转载请声明来源钻瓜专利网。