[发明专利]一种基于唇读技术的唇语输入方法无效

申请号：	201110334658.2	申请日：	2011-10-31
公开（公告）号：	CN103092329A	公开（公告）日：	2013-05-08
发明（设计）人：	张金;肖庆阳;梁碧玮;左闯;范娟婷;邸硕临	申请（专利权）人：	南开大学
主分类号：	G06F3/01	分类号：	G06F3/01;G06K9/00;G06K9/62
代理公司：	暂无信息	代理人：	暂无信息
地址：	300071***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于技术输入方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种基于唇读技术的唇语输入方式，主要针对常用汉字及阿拉伯数字。属于计算机智能识别技术，是一个典型的图像模式分析、理解和分类计算的问题，涉及模式识别，计算机视觉，智能人机交互，认知科学等多个学科。根据所拍摄的嘴部唇动视频，经过关键帧提取、图像处理及特征向量提取获取具有唇形特征的参数，据此识别为汉语拼音字母序列，最终结合输入法模块获得对应的汉字或阿拉伯数字。

背景技术

随着科技的发展，人们更加需要人性化的人机交互方式。现在，各种电子设备遍布我们生活的各个方面，大多都单一的依靠传统的键盘、鼠标等人手操作模式，很多情况下不够便利，不能够适应不同的环境需求，不能减少外界环境对人们的干扰。尽管如今已经从单一的手动按键，开始推广触屏方式，但还是需要各种实际存在的或者虚拟的键盘来输入相应的内容，在某种程度上，输入的速度以及便捷程度都受到很大限制。因此，人们开始思考和探索更为便捷的输入方式来减少对人手的束缚。

现有的输入方式，根据输入设备的不同，可分为键盘输入、手写输入、语音输入等。其中，键盘输入是最基础的计算机输入方式。现有的中文输入法，包括拼音输入法、五笔输入法、郑码输入法、音形码输入法等。其中，使用率最高的是拼音输入法。

近年来人们不断地思考新的输入方式。早在2002年，日本NTT旗下的NTT DoCoMo就在研发世界上第一款唇语手机，以解除对着手机大声讲话给他人带来的困扰。这就是一种新的输入方式——唇语输入。至2004年1月，可读唇语手机已处于实验阶段，而且手机已能辨识日语中大部分的母音。这种手机除了适合正常人在人多的地方使用外，还适合聋哑人使用。

可读唇语手机的提出，让我们重新审视了键盘加鼠标的单一的人机交互方式。比如，听者通过说话者嘴形的变化，很容易辨别出“ban”和“dan”之间的发音区别。我们只需一部便宜的摄像机的协助，增添一个计算机数据库和处理器，就可以让计算机来“读唇语”。

除此之外，在计算机领域中，人们也试着开辟一条新的道路使人机交互方式更加轻松，更加人性化。如今人们仍然需要在键盘上敲敲打打，依赖鼠标的帮助，通过最普遍的界面进行计算机操作。但是这种连续敲打键盘不仅容易造成手腕肌腱损伤，还把使用者一直束缚在键盘上。IBM公司的研究中心、英特尔公司的研究中心等实验室都在开发数字唇读系统，用以提高语音识别系统的精确度，使计算机在摄像头的协助下更加敏锐和精确地判别语音。

在IBM，研究员让计算机的摄像头对准一个正在说话的人，扫描其说话时面部皮肤的变化情况，以获得面部的象素点。然后，建立一个统计学模型，用以探测任何类似脸部的目标。这样当面部在可视的范围内，把焦距对准说话者的嘴部区域，通过视觉算法识别该说话者的许多面部表情的特征，包括嘴唇的中心和嘴角的特征变化。并且记录辅助发音的其他部位在发声时的特征变化，如说话时下颌和面颊下部的变化，以及舌头和牙齿的其他活动等，通过统计学模型结合记录下的音频和视频特征来分析，就可以确定讲话者的说话内容。见“让计算机读‘唇语”’(周小玲，让计算机读“唇语”，世界科学，2003年，第11期)。

自1984年伊利诺伊大学Petajan，首次提出利用唇读视觉信息辅助语音识别进行语言理解的理念，国外在唇读领域的研究工作起步比较早，多年来欧美和日本开展了广泛的唇读研究，已经逐步从高校和研究机构转到大型公司，已有面向市场的唇读产品出现，唇读的研究已经进入了向应用层面过渡的阶段，见“提高唇读理解的关键技术研究”(万玉奇.提高唇读理解的关键技术研究：[硕士学位论文].哈尔滨工业大学，2007年)。

国内哈尔滨工业大学、中科院声学所等院校也致力于该课题的研究，但目前尚处于实验室研究阶段，因此在我国尚需加大此方面的研究力度和速度，争取将研究成果早日产品化。姚鸿勋等提出了基于唇色滤波器的唇动特征提取，用SCHMM识别五个元音字母，对非特定人的动态识别率达到90％以上。梁路宏等运用DCT+LDA的方法提取唇读的视觉特征，结合语音特征，运用半连续隐马尔可夫模型(CHMM)在XM2VTS数据库的基础上研究AVSR，降低55％的错误率，见“唇读技术及其最新发展研究概述”(赵燕燕，王丽荣，唇读技术及其最新发展研究概述，长春大学学报，2007年，10期)。结合汉语语音的特点，中科院声学所建立了汉语语音的第一个双模态数据库CAVSR1.0。哈工大也建立了口型模板库Bi-CAVDatabase。结合前人的唇读研究，我们希望提出中文唇语输入方法，改善现有输入方式，提出新的交互理念，更适合特定场合下用户的使用。

发明内容

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南开大学，未经南开大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201110334658.2/2.html，转载请声明来源钻瓜专利网。

上一篇：银纳米线的制备方法
下一篇：一种营养美味的鲤鱼鱼冻及其制作方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F3-00 用于将所要处理的数据转变成为计算机能够处理的形式的输入装置；用于将数据从处理机传送到输出设备的输出装置，例如，接口装置
G06F3-01 .用于用户和计算机之间交互的输入装置或输入和输出组合装置
G06F3-05 .在规定的时间间隔上，利用模拟量取样的数字输入
G06F3-06 .来自记录载体的数字输入，或者到记录载体上去的数字输出
G06F3-09 .到打字机上去的数字输出
G06F3-12 .到打印装置上去的数字输出

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于唇读技术的唇语输入方法无效

专利文献下载