[发明专利]语音识别方法和语音识别系统有效
申请号: | 201310271192.5 | 申请日: | 2013-07-01 |
公开(公告)号: | CN103325370A | 公开(公告)日: | 2013-09-25 |
发明(设计)人: | 贾磊;万广鲁 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/14 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 王兆赓;李柱天 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 系统 | ||
技术领域
本发明涉及语音识别技术,更具体地讲,涉及一种通过将基于统计语言模型的识别与基于语法规则的识别结合从而实现声音识别和语义理解一体化的语音识别方法和语音识别系统。
背景技术
随着信息技术的发展,语音识别技术已经走入了人们的生活。在现有的常用语音识别技术中,通常用到的识别方法是基于统计语言模型(Ngram)的识别,或者是基于语法规则(grammer)的识别。基于统计语言模型的识别是把所有语音层信息组合成一个Ngram语言模型,识别结果是在Ngram模型所组成的解码空间上进行的。基于语法规则的识别是把语言层信息组织成固定的语法(grammer),识别的解码过程是在grammer上进行的。一般来说,基于Ngram的识别具有较高的灵活性,但是识别率偏低。基于grammer的识别具有较高的识别准确度,但是只能识别语法规则规定的语法样式的识别,不具备可推广性。
基于统计语言模型的大词汇量连续语音识别系统是在语音识别系统中广泛使用的语言建模技术。语音识别的解码空间是由Ngram语言模型的词典做自我回跳形成的。在解码的时候,词典中的词的自我回跳会形成二元词连接概率、三元词连接概率、四元词连接概率等。理论上,由于词典中的任何一个词都会回跳到词典中任意一个其他词,因此通过这种任意的回跳,Ngram语言模型能够描述任意的语言现象。同时,根据语音模型公知的行业知识,统计语言模型是采用了概率平滑技术来训练词汇连接概率的,对于那些概率不高的事件,由于采用语言模型平滑技术,因此在语音识别任务中也是可以被识别出来的。具有对任何语言现象的广泛的推广性是Ngram语言模型的巨大优点。但是Ngram语言模型也有一个非常明显的缺点,就是会产生大量的不合乎语言规律的错误的词与词之间的连接。这会导致在语音识别解码时候产生大量的歧义路径,从而影响了最终的语音识别系统在识别合乎语言规律的语音识别结果。
基于语法规则的语音识别系统是实际工业中,特别是嵌入式产品中广泛采用的一种识别系统。这种识别系统中的解码路径,必须是沿着事先设定好的词和词之间的连接进行,不能在词典中的任何词与词之间进行,这一点是基于语法规则的语音识别系统和基于统计语言模型的识别系统的核心差异。这样做的优点是,语音识别系统对于设定好的路径部分的识别率非常高,但是对于事先没有设定好路径的句子,几乎就根本不能识别。在语音产品的实际使用中,由于人类语言现象的复杂性,这种事先设定解码路径的语音识别系统总是会遇到各种各样的不能覆盖全面的问题,总会造成召回率的降低。
另一方面,基于统计语言模型的语音识别通常情况下和基于语法规则的语音识别是不可兼容的。造成这种不可兼容性的原因有两个:原因之一是统计语言模型内部的概率都是自己独立归一的,这个概率值的大小通常和语法规则模型的概率是不可相比的。原因之二是统计语言模型往往由于体积过大,在构架其解码空间的时候,大都是不能完全展开。而语法规则模型通常由于规则条数都是有限的,往往是采用完全展开的方式。由于两种识别方法的解码空间的组织方式不同,就导致两个解码空间没有办法直接融合在一个解码器中。
发明内容
因此,本发明的目的在于提供一种能够将基于统计语言模型的识别与基于语法规则的识别结合从而实现声音识别和语义理解一体化的语音识别方法和语音识别系统。
根据本发明的一方面,提供一种语音识别方法,包括:接收语音输入并提取语音帧特征;通过使用解码空间对输入的语音进行语音解码,以确定语音解码结果,其中,解码空间包括基于语法规则构造的多条解码路径,所述多条解码路径包括仅包含类语言模型节点的解码路径、仅包含统计语言模型节点的解码路径以及包含类语言模型节点和统计语言模型节点二者的解码路径的三种类型的解码路径;通过回溯选择的解码路径上的各个节点确定语义解析结果,其中,所述语音解码的步骤包括:将输入的语音遍历解码空间中的每一条解码路径,选择语言层得分与声学层得分之和最大的一条解码路径,并根据选择的解码路径上的各个节点的三音子声学模型确定语音解码结果。
优选地,每条解码路径的语言层得分为该解码路径上的各个节点之间的类语言模型概率P-Class与该解码路径上的统计语言模型节点的统计语言模型概率P-Ngram之和,每条解码路径的声学层得分为该解码路径上的各个节点的三音子声学模型得分之和。
优选地,通过训练获得类语言模型概率P-Class和统计语言模型概率P-Ngram。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310271192.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种注射器辅助套
- 下一篇:一种多功能便携式治疗盘