[发明专利]一种汉语唇语单音节识别分类器构建方法在审

申请号：	202010395570.0	申请日：	2020-05-12
公开（公告）号：	CN111582195A	公开（公告）日：	2020-08-25
发明（设计）人：	朱红;刘乐;王恒毅	申请（专利权）人：	中国矿业大学（北京）
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62;G06N3/04;G06N3/08
代理公司：	北京科亿知识产权代理事务所(普通合伙) 11350	代理人：	汤东凤
地址：	100083 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种汉语唇语单音节识别分类构建方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种汉语唇语单音节识别分类器构建方法，包括步骤：S1、采集待识别汉字单音节的发音视频；S2、构建唇部特征点标注图像样本集；S3、训练唇部特征点提取模型；S4、将所录制的每个汉语单音节发音视频均匀切分得到若干帧采样图像；S5、利用训练所得的唇部特征点提取模型对所得的每一帧采样图像分别进行特征点提取；S6、根据所得的唇部特征点集，分别构建每一帧图像的唇部几何特征；S7、将所得的属于同一发音视频的全部的新的几何特征序列按顺序保存，并标明所属类别；S8、利用所得每个发音视频的特征矩阵，训练得到唇语识别器。利用本发明可以实现汉语唇语识别，而且具有较高准确率。

技术领域

本发明涉及唇语识别技术领域，具体涉及一种基于唇部序列化几何特征的汉语唇语单音节识别分类器构建方法。

背景技术

随着人工智能技术的高速发展与计算机技术的普及，人脸识别、语音识别、瞳孔识别等一系列生物特征识别技术近几年得到了迅速的发展，唇语识别技术也备受关注。唇语识别技术是通过获取说话人说话时的唇部动作等信息并进行分析，识别出说话人想要表达的意思。由此可见，唇语识别的技术关键在于如何从图像中提取唇部特征，提取哪些唇部特征，如何表示具有时序性的唇部特征，唇部特征如何进行分类。这项技术所包含的技术领域甚为广泛，主要涉及计算机视觉、机器学习与人工智能、模式识别、计算机图形图像处理等。

结合社会实际情况，唇语识别技术具有较为广泛的应用范围：

(1)辅助语言障碍人士交流

根据中国残疾人联合会发布的最新数据调查结果显示，我国约有2200万语言障碍人士，约占全国人口总数的1.5％，语言障碍人士数量庞大，由于先天或后天的原因，这些人无法听到或发出声音，在生活中与他人沟通极为困难，因沟通问题所带给语言障碍人士的困扰不只局限于生理层面，也体现在心理层面，语言障碍人士因沟通不便而带来的心理问题更为严重。通过唇语识别技术的辅助识别，语言障碍人士可以尽可能表达自己的意思，普通人也可以尽可能与语言障碍人士交流沟通。

(2)辅助嘈杂环境工作者交流

与语言障碍人士不同，嘈杂环境中的工作者可以听到声音也能发出声音，但由于环境噪声的影响，工作者之间的交流很难准确捕获，因此难免会影响工作效率。通过唇语识别技术的应用于辅助，可以帮助工作者在嘈杂环境中及时准确的捕获对方所要表达的信息提高工作效率。

(3)辅助公共安全分析及刑侦分析

唇语识别技术对于公安执法部门的证据采集工作也有重要的帮助，在案件侦破过程中，视频画面由于距离等一些因素导致视频声音缺损甚至丢失的情况较为常见，这样的情况下直接导致案件的关键证据、线索无法获取得到。此类情况常发生于公共场所监控系统中。通过唇语识别技术的辅助，能够分析出视频画面中的部分关键语音信息，协助缉查人员推进案件的侦破。

(4)用于身份验证的唇动密码

由于发音习惯以及嘴型的不同，每个人私有的一段唇动变化具有其唯一性，可以用来作为一种密码，该密码可以用来进行身份认证等。唇动密码在识别时会以唇语内容、嘴唇特征和唇动特性为基本依据进行识别，具有较高的安全性。

国内外研究现状

吕品轩^[1]提出了一种基于主动型状模型(ASM)的唇型特征提取方法，该方法采用14点主动形状模型，选择嘴唇模型的宽、高形状特征，通过曲线拟合得到的参数组合作为几何特征，实验结果表明所提取到的特征均为有效特征，并使用隐马尔科夫模型(HMM)进行处理特征，实验结果表明该方法能够达到一定的识别率，但与其他研究结果还有一定的差距且未提及对汉语识别的准确率。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国矿业大学（北京），未经中国矿业大学（北京）许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010395570.0/2.html，转载请声明来源钻瓜专利网。

上一篇：一种硬链接文件的异地备份方法及系统
下一篇：多用户随机接入方法、基站、以及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种汉语唇语单音节识别分类器构建方法在审

专利文献下载