[发明专利]用于检测连续语音中的关键词的设备和方法有效
申请号: | 201010119995.5 | 申请日: | 2010-03-05 |
公开(公告)号: | CN102194454A | 公开(公告)日: | 2011-09-21 |
发明(设计)人: | 李鹏;郭庆;王彬 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G10L15/00 | 分类号: | G10L15/00 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 朱胜;陈炜 |
地址: | 日本神*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 检测 连续 语音 中的 关键词 设备 方法 | ||
技术领域
本发明涉及语音识别技术领域,特别涉及一种用于检测连续语音中的关键词的设备和方法。
背景技术
在人类的各种交流方式中,语音无疑占据着最重要的地位。从上世纪中叶计算机发明以来,随着其进入日常生活领域,人们希望能以语音作为人机交互的手段。与键盘、鼠标、按键、触摸等输入手段和显示器、打印机等输出手段相比,通过语音进行交互对用户来说更为方便和友好。从信息的流向划分,语音人机交互由两部分组成,一是计算机将人类的自然语言识别为可以处理的信息,二是计算机将返回信息转换为自然易懂的语音并输出。前者称为语音识别,后者称为语音合成。在计算机技术和人工智能学科的支持下,语音识别技术的研究在近二三十年间取得了长足的发展,并逐渐得到了应用。
按照工作方式,语音识别可以分为几大类。第一类是孤立词识别,只能识别单个输入的单词,常见于手机的语音拨号等应用。第二类是基于限定句型的识别,通过模板或有限状态图预先定义出所有可能的句子,从中找出与输入语音最相像的作为识别结果。这种技术多应用于特定领域的语音识别中。第三类是大词表连续语音识别,对输入语音的内容不做任何限制,并且将全部语音识别为文字。虽然理论上这种技术的应用应该最为广泛,但由于技术上面临很多还没有得到很好解决的问题,限制了其应用。最后一类就是本发明涉及的检测连续语音中的关键词。连续语音中的关键词检测与大词表连续语音识别的相同点在于不限制语音的内容;不同点在于它并不识别出所有内容,而是仅仅检测出语音中是否出现了预先定义的单词(亦即关键词),并给出它们在语音中的位置。
关键词检测的结果中包含两个类型的错误。第一种称为误报(falsealarm,FA),是指输入语音中的对应位置并不存在检出的关键词;第二种称为误拒(false rejection,FR),是指输入语音中的关键词没有被检出。关键词检测系统的结果中,每个关键词都有一个对应的置信度,用以量化该检出是正确的可能性。置信度可以理解为关键词与对应的语音片段的相似程度,一般用关键词模型和参考模型的对数似然比或者关键词模型的后验概率来表示,它们又都基于声学模型的打分,细节可参照Hui Jiang的“Confidence measure for speech recognition:A survey[J]”,SpeechCommunication 45(2005)455-470。关键词检测系统预先设定一个接收阈值,只输出置信度大于该阈值的关键词。通过调节该阈值,可以平衡FA和FR两类错误。阈值越高,则FA越低,FR越高;反之,阈值越低,则FA越高,FR越低。
一般来讲,越短的关键词越容易被错误检出,这是因为短词更容易在连续语音中找到相似的语音片段。以中文为例,在相同接收阈值下,2字词误报率比3字词高若干倍,而4字及以上词则基本不会被误报。对于一个给定的阈值,短词会有较高的FA错误和较低的FR错误,而长词则相反。
在Sunil K.Gupta和Frank K.Soong的“Improved utterancerejection using length dependent thresholds[C]”,Proceedings ofInternational Conference on Spoken Language Processing,Sydney,1998:1040-1043中,公开了一种对不同时间长度的语音分段设定接收阈值的方法。在D.Jouvet,K.Bartkova和G Mercier的“Hypothesis dependentthreshold setting for improved out-of-vocabulary data rejection[C]”,Proceedings of International Conference on Acoustics,Speech,and SignalProcessing,Phoenix,1999:709-712中公开了一种类似的方法,对不同长度的单词(按其中包含的音节个数计算)设定不同的接收阈值。在发明人为Kwok Leung Lam等、名称为“System and method for utteranceverification of Chinese long and short keywords”的美国专利申请US2006/0074664 A1中公开了一种为每一个关键词分别计算接收阈值的方法。相对于采用单一的阈值,以上这些方法都能降低系统的平均错误率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010119995.5/2.html,转载请声明来源钻瓜专利网。