[发明专利]一种融合多种视觉信息的唇语识别方法有效
申请号: | 202010918333.8 | 申请日: | 2020-09-02 |
公开(公告)号: | CN112084927B | 公开(公告)日: | 2022-12-20 |
发明(设计)人: | 闫野;杨恒;印二威;谢良;邓宝松;闫慧炯;范晓丽;罗治国 | 申请(专利权)人: | 中国人民解放军军事科学院国防科技创新研究院;天津(滨海)人工智能军民融合创新中心 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V20/00;G06V10/30;G06V10/764;G06V10/80;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 北京丰浩知识产权代理事务所(普通合伙) 11781 | 代理人: | 李学康 |
地址: | 100071 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 多种 视觉 信息 识别 方法 | ||
本发明公开了一种融合多种视觉信息的唇语识别方法,包含如下步骤:利用头戴式摄像采集设备对唇语图像进行采集;对采集到的视频数据根据采集对象、采集批次进行分类存放;把每个视频样本逐帧分解,对图像去噪处理,处理后的图像再做裁剪,只保存特定大小的唇部图像;搭建自监督光流生成网络,把采集的数据输入生成网络中;把真实图像、光流数据和深度图像分别输入到搭建好的三流融合训练网络中进行识别任务训练,并输出最终的唇语识别结果。本发明所拍摄的数据更多关注在人脸的唇部区域,在使用神经网络训练之前也减少了对唇部区域进行识别裁剪的步骤,因此识别效率得到了很大提升。
技术领域
本发明涉及到计算机视觉和模式识别领域,特别涉及到一种融合多种视觉信息的唇语识别方法。
技术背景
唇语识别是使用机器视觉技术,从图像中识别出人脸,判断其中正在说话的人,并提取此人连续的口型变化特征,随后将连续变化的口型特征输入到唇语识别模型中识别出对应的发音,最后根据识别出的发音再计算出可能性最大的自然语言语句。
唇部动作具有范围小、速度快等特点,唇语识别技术是目前国际研究的热门课题,可应用的领域包括场景教育、身份识别、公共安全、移动支付、军事情报等。具体地,通过唇语识别,可以让无法开口说话的残障人士自由表达、让听力障碍者和不少老年人更清晰地听懂他人;通过口型支付密码,可以进行移动支付;在军事情报领域,唇语识别则让远距离获取情报成为可能。
唇语识别技术来源已久,从初期的传统方法提取特征到今天广泛使用深度学习进行训练识别,技术的更新迭代让这个领域不断焕发出新的生机,也让我们对这一领域的应用前景充满了期待。1984年,Petajan等人使用最近邻搜索方法完成以一个词为最小单元的唇语识别系统,这个系统功能简单而且识别效果不理想,难以在商业上得到应用;1997年,Goldschen等人改进HMM对唇部特征进行进行建模识别,这标志着机器学习开始成为唇语识别领域的重要方法;2007年,Zhao等人使用了SVM对孤立的短语进行分类;2014年始,早稻田大学、牛津大学等多个研究小组开始把神经网络引入唇语识别系统,特别是卷积神经网络的引入,让唇语图像识别进入了一个新的发展阶段。卷积神经网络在处理视频数据时往往具有很大局限性,通常较难获取唇语视频重要的时序特征信息。针对该问题,本发明提出了利用神经网络获取唇语动作光流数据,并利用光流、有序深度图像和真实图像做三流融合识别的方法。
发明内容
针对如何较准确的提取唇部动作时序信息,从而提升唇语识别准确度的问题,本发明公开了一种基于多种类视觉数据的神经网络识别高噪声环境中唇语的方法。
本发明公开了一种融合多种视觉信息的唇语识别方法,包括以下步骤:
S1,利用头戴式摄像采集设备对唇语图像进行采集,根据采集对象头部大小和形状,调整头戴式摄像采集设备中深度相机镜头参数和拍摄位置。
S2,对采集到的视频数据根据采集对象、采集批次进行分类存放,检查被试者口型和给定指令是否相符,去掉因走神或设备故障导致的无效数据。
S3,把每个视频样本逐帧分解,检查每一帧的画质是否清晰,确定噪声位置及分析来源,根据高斯滤波原理和二维伽马函数公式对图像去噪处理,处理后的图像再做裁剪,只保存特定大小的唇部图像。
S4,搭建自监督光流生成网络,把采集的数据输入生成网络中,用于光流数据的生成。
S5,储存训练好的光流数据,包括水平和垂直两个方向像素位移数据;把真实图像和光流数据、深度图像分别存放,输入到搭建好的三流融合训练网络中进行识别任务训练,并输出最终的唇语识别结果。
步骤S1是数据准备工作。步骤S1具体包括:
S11,确定识别数据集所需采集的图像样本大小,根据刷新频率、像素因素选择合适的摄像头;
S12,设计出用于固定摄像头的头戴式塑料圈,并利用3D打印机打印出来;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军军事科学院国防科技创新研究院;天津(滨海)人工智能军民融合创新中心,未经中国人民解放军军事科学院国防科技创新研究院;天津(滨海)人工智能军民融合创新中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010918333.8/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置