[发明专利]基于统计模型和语法规则的口语语音识别方法无效
申请号: | 200910158030.4 | 申请日: | 2009-07-16 |
公开(公告)号: | CN101604520A | 公开(公告)日: | 2009-12-16 |
发明(设计)人: | 王辉 | 申请(专利权)人: | 北京森博克智能科技有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/14;G10L15/18 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100094北京市海淀区东*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 统计 模型 语法 规则 口语 语音 识别 方法 | ||
技术领域
本发明涉及自动语音识别技术领域,是一种基于统计语言模型、结合语法规则、面向口语识别应用的语音识别方法。
背景技术
信息系统或控制系统越来越多地应用语音界面来与用户进行快速和直接的交互作用,由于这些系统的功能正在变得越来越复杂,所需的对话方式也变得更丰富,人们正在进入大词汇量口语连续语音识别的领域。
大词汇量连续语音识别系统的设计都需要产生一个语言模型,它确定一个词汇序列可能的概率。
对于口语识别而言,这种语言模型必须能再现系统用户通常使用的讲话样式:反复、无关插入语、集外词或模糊发音。
所用语言模型的质量极大地影响语音识别的准确率。这种质量通常是用语言模型的困惑度指标来衡量,在原理上,该指标表示选择的数目,这种选择是系统对每一被解码的词必须做的。这一指标越低,质量越高。
语言模型需要把发音单元序列转换成词的文本串,这是对话系统常用的步骤。然后,需要构建一种能理解的逻辑关系,使能理解口头的提问,从而作出回答。
有两种产生大词汇语言模型的标准方法:
1)基于N元语法的统计语言模型,最常用的双语法或三语法,其要点是,假定一个词在句中的出现概率仅仅与前面的(N-1)个词有关,那么,它与句中的上下文无关。
考虑一个1000个词汇的三语法的例子,因为它有10003个可能的三元组,所以,它必须确定10003的概率来定义一个语言模型,因此,需要占用相当规模的存储器和非常强的计算能力。为了解决这个问题,把词分成组,这些组由模型设计者直接确定,或者由自组织方法推导出来。
这种语言模型是由大量文本通过统计的方法自动构造的。
2)第二种方法的要点是借助于规则语言来描述语法,典型的如依靠一组FSN网络描述的规则来确定语法。
描述语法的规则通常是手写的,但也可以用统计的方法从大量数据中自动推导出来。
当把这两种语言模型应用于自然语言系统的界面时,这两种模型产生了特殊的问题:
基于N元语法的统计语言模型不能正确模拟句子中几个隔开的语法子结构的关系。对于句法上正确发声的句子来说,没有什么可保证在识别过程中遵守这些子结构,因此,很难确定是否该句子就是由一种或多种特殊句法结构习惯产生的这种句子或这种意义。
这些模型适合于连续的口授,但把他们应用到对话系统就有所提到的严重的缺陷。
在基于N元语法的统计语言模型,借助于把最新实际发声的词组在一起来定义一组词,就可能考虑到支吾和重复。
基于语法规则的语言模型,可以使它正确模拟句子中隔开的远程关系,也遵守特定的句法结构。对于一种给定的应用,所得到的语言的困惑度常常比基于N元语法的统计语言模型低。
上述语言模型很难适应掺入有口头禅、模糊发音等的口语型语言的描述。特别地,这些与口语型语言有关的现象不能预测,因此,似乎很难依靠自身的特性来设计基于语法规则的语法。
此外,覆盖应用需要的规则数目很大,在没有修改这种现有规则之前,很难考虑要加入到对话中的新句子。
发明内容
本发明的目的是为克服现有语音识别技术的不足,提出一种N元语法统计模型和语法规则相结合的语言建模方法,使其应用于口语语音识别系统,提高对口语中集外词、口头禅、模糊发音、语句快速切换等发音现象的处理能力。
本发明是通过以下技术方案实现的,本发明由S1-声学模型训练、S2-语言模型训练、S3-前端处理、S4-识别解码四个部分组成,如图1所示。本发明的主要特征在于使用了以N元语法统计模型为基础,结合语法规则的语言模型。
以下是对本发明进一步的说明:
S1-声学模型训练
特征提取:按帧长25毫秒,帧移10毫秒提取12维MFCC特征,再加上1维能量特征,共13维静态特征。动态特征取一阶和二阶差分特征,得到39维的声学特征向量序列。
基本声学模型的训练:声学建模方法使用CDHMM+GMM,利用本领域熟知的方法训练状态绑定的上下文相关三音子模型。
S2-语言模型训练
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京森博克智能科技有限公司,未经北京森博克智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910158030.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种实现网站防篡改的方法和系统
- 下一篇:飞机刹车系统半实物仿真平台结构