[发明专利]一种基于面部生理信息的多模态唇读方法在审

专利信息
申请号: 201910284544.8 申请日: 2019-04-10
公开(公告)号: CN110110603A 公开(公告)日: 2019-08-09
发明(设计)人: 徐天一;朱雨朦;高洁;刘志强;赵满坤;王建荣;李雪威;杨帆 申请(专利权)人: 天津大学
主分类号: G06K9/00 分类号: G06K9/00;G06K9/62;G06T3/40;G06T7/41;G06T17/00
代理公司: 天津市北洋有限责任专利代理事务所 12201 代理人: 李林娟
地址: 300072*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 肌肉 彩色图像 深度信息 多模态 面部肌肉 生理信息 唇读 预处理 三维人脸模型 深度信息提取 特征点匹配 长度特征 二维图像 几何特征 角度特征 模型提取 伸缩变化 生理特征 特征提取 语音识别 连接层 特征点 唇部 映射 采集 融合 分类 协作 改进
【说明书】:

发明公开了一种基于面部生理信息的多模态唇读方法,包括以下步骤:基于Kinect采集彩色图像和3D深度信息,并对彩色图像和3D深度信息进行预处理;建立面部肌肉模型,结合六条肌肉的位置信息,通过特征点匹配将每条肌肉的起点和终点映射到标准三维人脸模型中;基于深度信息提取唇部的几何特征、角度特征;根据面部肌肉模型提取表征肌肉伸缩变化的肌肉长度特征,以及表征肌肉间的相互协作对特征点位移影响的肌肉生理特征;基于DenseNets的多模态语音识别对上述特征进行识别,对DenseNet的全连接层进行改进,融合彩色图像与深度信息,对特征进行分类。本方法能够有效克服传统基于二维图像特征提取方法存在的不足。

技术领域

本发明涉及计算机智能识别领域,涉及多模态数据采集、基于深度信息的特征提取和多模态语音识别领域,尤其涉及一种基于面部生理信息的多模态唇读方法。

背景技术

唇读研究主要由三大模块构成,分别为:唇区检测与定位、唇动特征提取和训练识别。

关于唇区定位,早期是通过人脸的几何特征,即根据人脸长与脸宽的平均标准比例来大致确定唇部区域。现在流行的方法是基于颜色信息的方法,该方法的核心是利用颜色空间变换来分离色度,然后根据颜色范围信息来分割图像。Badura等人利用HSV空间直方图获得了满意的检测率[1]。Spyridonos提出了YIQ颜色空间下的模糊C-均值聚类算法来描述下唇边界形态[2]

最初唇部特征提取方法是基于二维彩色图像展开的,分为基于像素的特征提取方法,基于模型的特征提取方法和基于像素和基于模型的混合方法。随着三维空间体感传感器的出现,深度信息作为视觉的一种新兴特征得到人们的广泛应用,特别是在唇部的特征提取方面。Uda等人建立了一个基于车内环境,包含:深度信息的唇动数据库,通过利用深度信息来重建话者面部的网格纹理模型,证明了三维数据的实验结果比二维数据的效果好[3]。微软Kinect不仅可以采集多模态的信息,其自带的软件开发工具包提供了面部追踪的接口,通过接口可以使用坐标点来重新定义面部信息,因此基于Kinect听觉视觉的多模态语音识别系统吸引了一批研究者。Yargic等人利用Kinect深度摄像头获取到了121个面部特征点,然后从特征点提取了角度特征作为唇读应用的输入[4]。Galatas等人使用自己建立的BAVCD数据库,实现了基于Kinect正脸深度数据辅助的多模态语音识别系统[5]

唇动识别是一个唇动系统的核心阶段,目前唇动识别方案有四类方法:模板匹配、动态时间规划(Dynamic Time Warping,DTW)、隐马尔科夫(Hidden Markov Model,HMM)、人工神经网络(Artificial Neural Networks,ANN)。近几年,深度学习受到了人们的广泛关注,它利用标准正脸的图像数据显著提高了多模态语音识别系统的性能。Chung等人利用基于卷积神经网络(CNN,Convolutional Neural Network)和长短时记忆网络(LSTM,LongShort-Term Memory)的网络模型实现了多模态的语音识别系统[6]

传统基于像素的唇动特征提取方法将唇区图像中的所有像素信息作为研究对象,直接将像素信息作为唇动特征向量,或经过某种图像变换后生成特征向量。该方法不能直观地反映唇动信息,且大都对图像的旋转、缩放和光照变化比较敏感。另外,该方法的特征向量维数较高,容易导致高冗余度。

传统基于模型的唇动特征提取方法利用嘴唇的轮廓信息来形象直观地刻画唇动变化,但任何一种模型都不能涵盖图像的全部特征,故存在信息丢失的问题,且该方法对目标图像信息清晰度的要求也非常高。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910284544.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top