[发明专利]自然语音识别方法和装置无效
申请号: | 201110184758.1 | 申请日: | 2011-07-04 |
公开(公告)号: | CN102867511A | 公开(公告)日: | 2013-01-09 |
发明(设计)人: | 余喆 | 申请(专利权)人: | 余喆 |
主分类号: | G10L15/18 | 分类号: | G10L15/18;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100043 北京市石*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自然 语音 识别 方法 装置 | ||
技术领域
本发明涉及语音识别技术,尤其涉及一种自然语音识别方法和装置。
背景技术
在语音识别领域中,对于不同的语言,语音识别技术各不相同,例如:对于英文而言,句中的单词均由26个字母表中的字母构成,在进行语音识别时,语音识别系统需要对语句中的字母以及句子的语法结构进行识别,才能识别出语音信息对应的文本信息。
中文与英文最大的区别在于,中文汉字数量较大,目前,汉字的总数已经超过了8万,其中常用汉字大约有3500字左右,面对如此庞大的中文汉字库,传统的语音识别技术是基于关键词的,语音识别系统需要将用户发送的语音内容从头到尾按字/词的方式与词表中预先存储的文本内容进行逐一匹配,只有语音内容与词表中存储的某条文本内容完全匹配时,语音识别系统才能识别出用户发送的语音内容的含义,成功进行语音识别,否则,语音识别失败。
然而,在实际的生活中,语言表述形式是多种多样的,对于同一事物每个人或者同一人在不同时期的表述各不相同,例如:对母亲一词的表述可以包括:母亲、妈、妈妈、老妈、妈咪等等。为了提高语音识别的成功率与准确率,需要尽可能地将同一事物的所有表述形式均存储到语音识别系统的词表中,这使得语音识别系统的词表规模非常庞大,维护不方便,并且由于词表规模庞大,使得语音识别系统进行语音识别的速度较慢。另外,由于人们的语言表述形式千差万别,随着时代的发展,语言表达方式也在不断更新,无法在语音识别系统的词表中穷尽同一事物的所有表述形式,使得采用关键词方式进行语音识别的成功率较低。
在申请号为CN00130067.9、CN03123123.3以及CN03138149.9等中国专利中也公开了与语音识别相关的技术方案,然而上述技术方案只能进行语音合成或者将语音转换成文字,而无法实现对语音转换成文字信息的识别,并且,上述技术方案是针对英文语音识别设计的,根据以上分析可知,英文语言和中文语言从词语数量以及语法特点上大不相同,使得上述技术方案即使应用在中文语音识别中也无法进行有效的识别,语音识别的成功率较低;在申请号为CN99813093.1的中国专利中,公开了一种采用语音识别和自然语言处理的交互式用户界面,虽然能够实现对语音转换成文字信息的识别,然而该技术方案也是针对英文语言设计的,在进行语音识别的过程中需要考虑语法等因素的影响,仍然无法有效地应用在中文语音识别中。
发明内容
为解决上述技术问题,本发明的实施例提供一种自然语音识别方法和装置,能够提高中文语音识别速度,以及语音识别的成功率。
一种自然语音识别方法,包括:获取用户输入的语音信息对应的文字信息;采用预先设置的词典对所述文字信息进行分词处理,获取所述文字信息包含的词语,其中,所述词典用于存储待进行语音识别的目标词语;根据所述文字信息包含的词语查找目标信息数据库,从所述目标信息数据库中获取与所述文字信息包含的词语匹配度最高的目标信息。
一种自然语音识别装置,包括:
第一获取单元,用于获取用户输入的语音信息对应的文字信息;
分词处理单元,用于采用预先设置的词典对所述第一获取单元获取的文字信息进行分词处理,获取所述文字信息包含的词语,其中,所述词典用于存储待进行语音识别的目标词语;
查找单元,用于根据所述分词处理单元获取的文字信息包含的词语查找目标信息数据库,从所述目标信息数据库中获取与所述文字信息包含的词语匹配度最高的目标信息。
本发明实施例提供的自然语音识别方法和装置,采用文字信息包含的词语进行信息匹配,并将目标信息数据库中与文字信息包含的词语匹配度最高的信息作为对语音信息识别得到的目标信息,不需要对语音信息进行完全匹配即可获得目标信息,提高了语音识别的成功率,解决了现有技术采用对语音信息进行完全匹配方法进行语音识别,造成由于表述方式不一致而使语音识别失败,语音识别成功率低的问题,由于本发明实施例提供的技术方案采用词语匹配的方式进行语音识别,只需要在词典中存储目标词语并在目标信息数据库中存储标准信息即可,不需要对同一事物按照语言表述方式存储大量不同形式的文本信息,词典和目标信息数据库的数据规模较小,便于进行查找,进而提高了语音识别速度,解决了现有技术需要在词表中对同一事物存储大量不同表述形式的文本信息,造成词表规模庞大,不便于查找,进行语音识别的速度较慢的问题。本发明实施例提供的技术方案不同于英文语音识别技术,该技术方案针对中文语言文字量大,语句中词语连贯、无停顿的特点,采用对语句分词,并根据词语查找的方式进行语音识别,对中文语音识别的成功率以及识别速度较高。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于余喆,未经余喆许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110184758.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基础桩基岩钻进用金刚石钻头
- 下一篇:一种节能窗的安装构造