[发明专利]一种基于唇读技术的唇语输入方法无效
申请号: | 201110334658.2 | 申请日: | 2011-10-31 |
公开(公告)号: | CN103092329A | 公开(公告)日: | 2013-05-08 |
发明(设计)人: | 张金;肖庆阳;梁碧玮;左闯;范娟婷;邸硕临 | 申请(专利权)人: | 南开大学 |
主分类号: | G06F3/01 | 分类号: | G06F3/01;G06K9/00;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 300071*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 技术 输入 方法 | ||
技术领域
本发明涉及一种基于唇读技术的唇语输入方式,主要针对常用汉字及阿拉伯数字。属于计算机智能识别技术,是一个典型的图像模式分析、理解和分类计算的问题,涉及模式识别,计算机视觉,智能人机交互,认知科学等多个学科。根据所拍摄的嘴部唇动视频,经过关键帧提取、图像处理及特征向量提取获取具有唇形特征的参数,据此识别为汉语拼音字母序列,最终结合输入法模块获得对应的汉字或阿拉伯数字。
背景技术
随着科技的发展,人们更加需要人性化的人机交互方式。现在,各种电子设备遍布我们生活的各个方面,大多都单一的依靠传统的键盘、鼠标等人手操作模式,很多情况下不够便利,不能够适应不同的环境需求,不能减少外界环境对人们的干扰。尽管如今已经从单一的手动按键,开始推广触屏方式,但还是需要各种实际存在的或者虚拟的键盘来输入相应的内容,在某种程度上,输入的速度以及便捷程度都受到很大限制。因此,人们开始思考和探索更为便捷的输入方式来减少对人手的束缚。
现有的输入方式,根据输入设备的不同,可分为键盘输入、手写输入、语音输入等。其中,键盘输入是最基础的计算机输入方式。现有的中文输入法,包括拼音输入法、五笔输入法、郑码输入法、音形码输入法等。其中,使用率最高的是拼音输入法。
近年来人们不断地思考新的输入方式。早在2002年,日本NTT旗下的NTT DoCoMo就在研发世界上第一款唇语手机,以解除对着手机大声讲话给他人带来的困扰。这就是一种新的输入方式——唇语输入。至2004年1月,可读唇语手机已处于实验阶段,而且手机已能辨识日语中大部分的母音。这种手机除了适合正常人在人多的地方使用外,还适合聋哑人使用。
可读唇语手机的提出,让我们重新审视了键盘加鼠标的单一的人机交互方式。比如,听者通过说话者嘴形的变化,很容易辨别出“ban”和“dan”之间的发音区别。我们只需一部便宜的摄像机的协助,增添一个计算机数据库和处理器,就可以让计算机来“读唇语”。
除此之外,在计算机领域中,人们也试着开辟一条新的道路使人机交互方式更加轻松,更加人性化。如今人们仍然需要在键盘上敲敲打打,依赖鼠标的帮助,通过最普遍的界面进行计算机操作。但是这种连续敲打键盘不仅容易造成手腕肌腱损伤,还把使用者一直束缚在键盘上。IBM公司的研究中心、英特尔公司的研究中心等实验室都在开发数字唇读系统,用以提高语音识别系统的精确度,使计算机在摄像头的协助下更加敏锐和精确地判别语音。
在IBM,研究员让计算机的摄像头对准一个正在说话的人,扫描其说话时面部皮肤的变化情况,以获得面部的象素点。然后,建立一个统计学模型,用以探测任何类似脸部的目标。这样当面部在可视的范围内,把焦距对准说话者的嘴部区域,通过视觉算法识别该说话者的许多面部表情的特征,包括嘴唇的中心和嘴角的特征变化。并且记录辅助发音的其他部位在发声时的特征变化,如说话时下颌和面颊下部的变化,以及舌头和牙齿的其他活动等,通过统计学模型结合记录下的音频和视频特征来分析,就可以确定讲话者的说话内容。见“让计算机读‘唇语”’(周小玲,让计算机读“唇语”,世界科学,2003年,第11期)。
自1984年伊利诺伊大学Petajan,首次提出利用唇读视觉信息辅助语音识别进行语言理解的理念,国外在唇读领域的研究工作起步比较早,多年来欧美和日本开展了广泛的唇读研究,已经逐步从高校和研究机构转到大型公司,已有面向市场的唇读产品出现,唇读的研究已经进入了向应用层面过渡的阶段,见“提高唇读理解的关键技术研究”(万玉奇.提高唇读理解的关键技术研究:[硕士学位论文].哈尔滨工业大学,2007年)。
国内哈尔滨工业大学、中科院声学所等院校也致力于该课题的研究,但目前尚处于实验室研究阶段,因此在我国尚需加大此方面的研究力度和速度,争取将研究成果早日产品化。姚鸿勋等提出了基于唇色滤波器的唇动特征提取,用SCHMM识别五个元音字母,对非特定人的动态识别率达到90%以上。梁路宏等运用DCT+LDA的方法提取唇读的视觉特征,结合语音特征,运用半连续隐马尔可夫模型(CHMM)在XM2VTS数据库的基础上研究AVSR,降低55%的错误率,见“唇读技术及其最新发展研究概述”(赵燕燕,王丽荣,唇读技术及其最新发展研究概述,长春大学学报,2007年,10期)。结合汉语语音的特点,中科院声学所建立了汉语语音的第一个双模态数据库CAVSR1.0。哈工大也建立了口型模板库Bi-CAVDatabase。结合前人的唇读研究,我们希望提出中文唇语输入方法,改善现有输入方式,提出新的交互理念,更适合特定场合下用户的使用。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110334658.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:银纳米线的制备方法
- 下一篇:一种营养美味的鲤鱼鱼冻及其制作方法