[发明专利]基于嵌入式环境下的中文大词汇量语音查询方法有效
申请号: | 200810115269.9 | 申请日: | 2008-06-20 |
公开(公告)号: | CN101290768A | 公开(公告)日: | 2008-10-22 |
发明(设计)人: | 杨殿阁;连小珉;张涛;刘旺;李克强;罗禹贡;郑四发;王建强 | 申请(专利权)人: | 清华大学 |
主分类号: | G10L15/08 | 分类号: | G10L15/08;G10L15/10;G10L15/04 |
代理公司: | 北京清亦华知识产权代理事务所 | 代理人: | 廖元秋 |
地址: | 1000*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 嵌入式 环境 中文 词汇量 语音 查询 方法 | ||
技术领域
本发明属于信息技术中的语音查询领域,特别涉及一种嵌入式环境下的中文大词汇量语音查询方法。
背景技术
语音查询是利用语音识别技术,根据用户语音从指定词汇库中识别并选定出特定词汇。语音识别的研究工作大约开始于50年代,以AT&T Bell实验室实现了第一个可识别十个英文数字的语音识别系统一Audry系统为标志。IBM公司于1997年开发出汉语ViaVoice语音识别系统,次年又开发出可以识别上海话、广东话和四川话等地方口音的语音识别系统ViaVoice′98。它带有一个32000词的基本词汇表,可以扩展到65000词,还包括办公常用词条,具有“纠错机制”,其平均识别率可以达到95%。该系统对新闻语音识别具有较高的精度,是目前具有代表性的汉语连续语音识别系统。我国语音识别研究工作始于二十世纪80年代初,一直紧跟国际水平,受到国家的高度重视,大词汇量语音识别的研究被列入了国家“863”计划,由中科院声学所、自动化所及清华大学、北京大学等单位研究开发,取得了高水平的科研成果,如中科院自动化所研制的非特定人、连续语音听写系统和汉语语音人机对话系统,其准确率可达90%以上。
在嵌入式硬件环境中,由于受到运算能力和存储资源限制,目前仅有中小词汇量中文语音识别引擎达到了实用的程度。中小词汇量中文语音识别引擎加载中小词汇量词库,以语音信号为输入,输出识别结果。其中,中小词汇量词库和识别结果都是中文词汇的集合。通常的中小词汇量中文语音识别引擎可以加载最多约500个中文词汇的词库,根据输入的语音信号从词库中挑出和语音信号最匹配的若干(如10个)词汇,并且按照匹配度的高低排列,作为识别结果。利用中小词汇量中文语音识别引擎可以在中小词汇量范围内实现中文语音查询功能。然而,对于大词汇量的语音查询需求,如导航系统中地址(也称兴趣点,POI)的语音查询还存在一定困难。
发明内容
本发明的目的是针对目前应用的需求,提出一种嵌入式环境的中文大词汇量语音查询方法。可以在仅使用中小词汇量中文语音识别引擎的情况下对中文大词汇量词库进行语音查询。使用本发明的语音查询方法,在保证较高识别准确率的情况下使查询功能突破了语音识别引擎本身的词库数量限制,使它能够完成本身所不具有的中文大词汇量语音查询功能。
本发明提出的一种基于嵌入式环境的中文大词汇量语音查询方法,该方法包括:
1)生成语音识别引擎所用的中小词汇量词库,该词库由无音调音节表构成;
2)利用语音识别引擎对无音调音节表中单个音节进行识别,根据识别结果计算该音节与无音调音节表中其他音节的相似度,并生成音节相似度表;
3)实时监测输入的语音信号,利用语音活动检测算法判断输入词汇语音的起始点和终止点,从而完整地提取出用户表达词汇内容的连续的词汇语音信号;
4)将连续的词汇语音信号切分为多个单音节的词汇语音;
5)从中文大词汇量词库中提取出长度大于等于所述词汇语音的音节个数的所有词汇,并截去该词汇尾部大于所述音节个数的音节,使该词汇音节个数与词汇语音的音节个数相同,构成等长词库;
6)利用语音识别引擎对词汇语音音节进行识别,根据识别结果计算所述词汇语音与等长词库中所有词汇的匹配度;
7)将步骤6)计算的匹配度按从大到小排序,选出排在前面的多个词汇即为最终的查询结果。
本发明的特点及有益效果:
该方法使用普通的中小词汇量中文语音识别引擎,对输入的语音信号进行实施监测和识别,在中文大词汇量词库中查询出识别结果。
该方法的特点是针对中小词汇量中文语音识别引擎的词汇数量限制,采用有限个数的无音调音节构成语音识别引擎的词库。利用语音识别引擎计算各个音节与无音调音节表中所有音节的相似度,生成一个音节相似度表。将输入的连续的词汇语音信号按音节切分,对词汇语音的音节进行识别,同时利用音节相似度表计算这些词汇语音的音节与词库中所有音节的匹配度。根据词汇语音的音节数在中文大词汇量词库中选取词汇构成等长词库,减小词汇匹配范围。计算词汇语音与等长词库中各词汇的匹配度,并根据该匹配度输出识别结果,完成中文大词汇量语音查询功能。
该方法的优点是在嵌入式环境下,使中文语音查询的词汇数量能够在很大程度上突破语音识别引擎本身的词库数目限制,同时保证了较高的识别准确率。
附图说明
图1是本发明方法的流程框图;
图2是本发明方法中语音活动检测流程框图;
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810115269.9/2.html,转载请声明来源钻瓜专利网。