[发明专利]通过使用平方根折扣的统计语言的语音识别有效
申请号: | 200710141821.7 | 申请日: | 2007-08-13 |
公开(公告)号: | CN101123090A | 公开(公告)日: | 2008-02-13 |
发明(设计)人: | G·维尔申 | 申请(专利权)人: | 哈曼贝克自动系统股份有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/18 |
代理公司: | 北京纪凯知识产权代理有限公司 | 代理人: | 沙捷 |
地址: | 德国卡*** | 国省代码: | 德国;DE |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 通过 使用 平方根 折扣 统计 语言 语音 识别 | ||
技术领域
本发明涉及采用统计平滑的统计语言建模的方法。特别地,本发 明涉及基于统计语言建模的语音识别方法,该统计建模利用平滑的概 率计算,具体地,折扣所观察到的事件的概率。
背景技术
统计语言建模是试图捕获自然语言的规律性,并因此捕获到人机 交互的自然语言系统的基本成分。统计语言模型旨在尽可能精确地估 计自然语言的分布。这些模型在不同自然语言应用中扮演了重要角色, 如语音识别、机器翻译、文本到语音系统以及拼写校正。
语音识别可以当作统计语言建模的尤其重要的应用。语音识别系 统,即将声学信号转换为词或词串的序列的设备,这在今天越来越流 行。在过去的几年中,由于语音识别技术的急剧改进,高性能的语音 分析、识别算法和语音对话系统已经变得常见。今天,语音输入能力 包括语音拨号、呼叫路由、文献准备等。语音对话系统例如可以采用 在汽车中,从而允许用户控制不同的装置,如移动电话,车载收音机, 导航系统和/或空调。
在语音识别发声过程中,例如,孤立的词或连续的语音被麦克风 或电话捕获,并被转换为模拟电子信号,该电子信号然后被数字化。 数词信号通常经过后续的波谱分析。通常以6.6KHz和20KHz之间的 速率采样的语音波形的表示是从短时间功率谱获得的,并表示一系列 特征化的矢量,这些矢量含有通常被称为特征/特征参数的值。特征参 数的值被用于估计部分被分析波形的概率,例如该被分析波形相应于 特定项目,如词汇表中的词。
尽管已经有尝试将语言结构和理论以及语义的先验知识包括到统 计语言建模中,并且目前可以采用利用语境(context)的统计信息的 方法,如集合Markov模型(aggregate Markov model)和神经概率语言 模型,但是最流行和高效的N元文法(n-gram)语言建模并未考虑语 言的特定本质。
实际上,n元文法建模依靠预测性语境(predictive context)的离 散列举,该预测性语境指定对所看到的一个或多个词的关系,其中这 些词被当作没有深层结构和意义的任意符号。每个词是从前面n-1个词 预测的。应该指出,许多可能的n元文法在任何合理训练语料中是不 可见的,该合理训练语料引起稀疏数据问题(参看下面)。
通常,句子的概率p(s)是通过句子第i个词Wi的条件概率的积计 算的
其中hi=(w1,..,wi-1)被称为历史。n元文法通过Markov方法减小 了概率问题的维度,也就是通过假定词受其前面的局部语境影响,即, 前面的最后几个词p(wi|hi)=p(wi|wi-n+1,..,wi-1)。对于相对大的训练语 料(如几百万个词),一般选择三元文法(n=3),而对于较小的训练 语料则选择二元文法(n=2)。
然而,即使对于较大的语料,二元文法和三元文法概率的计算也 表现出稀疏估算问题,因为大量的词组合出现不频繁。因此,直接最 大似然估计法(straight-forward maximum-likelihood estimation approach)不是优选的。所以提出了基于类的n元文法模型来估计分成 类的词的参数。此外,不同平滑技术也已经被开发来消除数据稀疏的 问题,包括从所见事件采取某些概率测量(n元文法)并将其再分布到 不可见事件中的所谓折扣方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈曼贝克自动系统股份有限公司,未经哈曼贝克自动系统股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710141821.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:便携式管道相贯线切割装置
- 下一篇:Al-Si合金活塞材料双温热处理工艺