[发明专利]一种基于唇读技术的唇语输入方法无效

专利信息
申请号: 201110334658.2 申请日: 2011-10-31
公开(公告)号: CN103092329A 公开(公告)日: 2013-05-08
发明(设计)人: 张金;肖庆阳;梁碧玮;左闯;范娟婷;邸硕临 申请(专利权)人: 南开大学
主分类号: G06F3/01 分类号: G06F3/01;G06K9/00;G06K9/62
代理公司: 暂无信息 代理人: 暂无信息
地址: 300071*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 技术 输入 方法
【说明书】:

技术领域

发明涉及一种基于唇读技术的唇语输入方式,主要针对常用汉字及阿拉伯数字。属于计算机智能识别技术,是一个典型的图像模式分析、理解和分类计算的问题,涉及模式识别,计算机视觉,智能人机交互,认知科学等多个学科。根据所拍摄的嘴部唇动视频,经过关键帧提取、图像处理及特征向量提取获取具有唇形特征的参数,据此识别为汉语拼音字母序列,最终结合输入法模块获得对应的汉字或阿拉伯数字。

背景技术

随着科技的发展,人们更加需要人性化的人机交互方式。现在,各种电子设备遍布我们生活的各个方面,大多都单一的依靠传统的键盘、鼠标等人手操作模式,很多情况下不够便利,不能够适应不同的环境需求,不能减少外界环境对人们的干扰。尽管如今已经从单一的手动按键,开始推广触屏方式,但还是需要各种实际存在的或者虚拟的键盘来输入相应的内容,在某种程度上,输入的速度以及便捷程度都受到很大限制。因此,人们开始思考和探索更为便捷的输入方式来减少对人手的束缚。

现有的输入方式,根据输入设备的不同,可分为键盘输入、手写输入、语音输入等。其中,键盘输入是最基础的计算机输入方式。现有的中文输入法,包括拼音输入法、五笔输入法、郑码输入法、音形码输入法等。其中,使用率最高的是拼音输入法。

近年来人们不断地思考新的输入方式。早在2002年,日本NTT旗下的NTT DoCoMo就在研发世界上第一款唇语手机,以解除对着手机大声讲话给他人带来的困扰。这就是一种新的输入方式——唇语输入。至2004年1月,可读唇语手机已处于实验阶段,而且手机已能辨识日语中大部分的母音。这种手机除了适合正常人在人多的地方使用外,还适合聋哑人使用。

可读唇语手机的提出,让我们重新审视了键盘加鼠标的单一的人机交互方式。比如,听者通过说话者嘴形的变化,很容易辨别出“ban”和“dan”之间的发音区别。我们只需一部便宜的摄像机的协助,增添一个计算机数据库和处理器,就可以让计算机来“读唇语”。

除此之外,在计算机领域中,人们也试着开辟一条新的道路使人机交互方式更加轻松,更加人性化。如今人们仍然需要在键盘上敲敲打打,依赖鼠标的帮助,通过最普遍的界面进行计算机操作。但是这种连续敲打键盘不仅容易造成手腕肌腱损伤,还把使用者一直束缚在键盘上。IBM公司的研究中心、英特尔公司的研究中心等实验室都在开发数字唇读系统,用以提高语音识别系统的精确度,使计算机在摄像头的协助下更加敏锐和精确地判别语音。

在IBM,研究员让计算机的摄像头对准一个正在说话的人,扫描其说话时面部皮肤的变化情况,以获得面部的象素点。然后,建立一个统计学模型,用以探测任何类似脸部的目标。这样当面部在可视的范围内,把焦距对准说话者的嘴部区域,通过视觉算法识别该说话者的许多面部表情的特征,包括嘴唇的中心和嘴角的特征变化。并且记录辅助发音的其他部位在发声时的特征变化,如说话时下颌和面颊下部的变化,以及舌头和牙齿的其他活动等,通过统计学模型结合记录下的音频和视频特征来分析,就可以确定讲话者的说话内容。见“让计算机读‘唇语”’(周小玲,让计算机读“唇语”,世界科学,2003年,第11期)。

自1984年伊利诺伊大学Petajan,首次提出利用唇读视觉信息辅助语音识别进行语言理解的理念,国外在唇读领域的研究工作起步比较早,多年来欧美和日本开展了广泛的唇读研究,已经逐步从高校和研究机构转到大型公司,已有面向市场的唇读产品出现,唇读的研究已经进入了向应用层面过渡的阶段,见“提高唇读理解的关键技术研究”(万玉奇.提高唇读理解的关键技术研究:[硕士学位论文].哈尔滨工业大学,2007年)。

国内哈尔滨工业大学、中科院声学所等院校也致力于该课题的研究,但目前尚处于实验室研究阶段,因此在我国尚需加大此方面的研究力度和速度,争取将研究成果早日产品化。姚鸿勋等提出了基于唇色滤波器的唇动特征提取,用SCHMM识别五个元音字母,对非特定人的动态识别率达到90%以上。梁路宏等运用DCT+LDA的方法提取唇读的视觉特征,结合语音特征,运用半连续隐马尔可夫模型(CHMM)在XM2VTS数据库的基础上研究AVSR,降低55%的错误率,见“唇读技术及其最新发展研究概述”(赵燕燕,王丽荣,唇读技术及其最新发展研究概述,长春大学学报,2007年,10期)。结合汉语语音的特点,中科院声学所建立了汉语语音的第一个双模态数据库CAVSR1.0。哈工大也建立了口型模板库Bi-CAVDatabase。结合前人的唇读研究,我们希望提出中文唇语输入方法,改善现有输入方式,提出新的交互理念,更适合特定场合下用户的使用。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110334658.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top