[发明专利]用于语音识别的声学模型的建模方法、建模系统有效
申请号: | 201310020010.7 | 申请日: | 2013-01-18 |
公开(公告)号: | CN103117060A | 公开(公告)日: | 2013-05-22 |
发明(设计)人: | 颜永红;肖业鸣;潘接林 | 申请(专利权)人: | 中国科学院声学研究所;北京中科信利技术有限公司 |
主分类号: | G10L15/14 | 分类号: | G10L15/14;G10L15/06 |
代理公司: | 北京亿腾知识产权代理事务所 11309 | 代理人: | 陈霁 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 语音 识别 声学 模型 建模 方法 系统 | ||
技术领域
本发明涉及语音识别领域,尤其涉及一种用于语音识别的声学模型的建模方法及建模系统。
背景技术
目前语音识别的主流框架基于统计模式识别。典型的语音识别系统框架如图1所示:包括语音采集及前端处理模块、特征提取模块、声学模型模块、语言模型模块以及解码器模块。语音识别的基本流程如下:语音采集装置收集人的语音后经过前端处理之后进行特征提取,提取的特征序列如MFCC或PLP通过声学模型获得其观察概率,结合语言模型概率送入解码器获得最有可能的文本序列。所述声学模型建模基于隐马尔科夫框架,采用混合高斯模型对语音特征的概率分布进行建模。所述混合高斯模型会对语音特征及其分布做一些不恰当的假设,如相邻语音特征的线性无关假设,其观察概率服从混合高斯分布等。此外,混合高斯模型进行参数训练时目标函数是使观察特征的似然概率最大,而解码时使用的却是最大后验准则,概率模型上不一致。可见传统的声学模型,建模精度不高,导致语音识别效果欠佳。
发明内容
针对上述问题,本发明实施例提出一种用于语音识别的声学模型的建模方法、建模系统。
在第一方面,本发明实施例提出一种用于语音识别的声学模型的建模方法,所述方法包括:用训练数据训练一个隐马尔可夫-混合高斯HMM-GMM模型,该HMM-GMM模型的建模单元为所述训练数据的语音特征经过音素决策树聚类后的三音子状态,所述HMM-GMM模型通过期望最大EM算法获得所述三音子状态的状态转移概率;基于所述HMM-GMM模型,对所述训练数据语音特征的三音子状态进行强制对齐,获得所述语音特征帧级状态信息;对作为所述声学模型的深层神经网络进行预训练以得到用于初始化所述深层网络的各隐含层的权重的参数;基于所述训练数据语音特征的三音子状态采用误差反向传播算法对所述深层神经网络进行训练,更新其各隐含层的权重。
优选地,所述基于所述HMM-GMM模型,对所述训练数据语音特征的三音子状态进行强制对齐,获得所述语音特征帧级状态信息,具体为:基于所述HMM-GMM模型,将所述训练数据语音特征与其最可能的三音子状态进行对应,获得所述语音特征帧级状态信息。
优选地,所述对作为所述声学模型的深层神经网络进行预训练以得到用于初始化所述深层网络的各隐含层的权重的参数具体为:利用受限波尔兹曼机基于所述训练数据进行逐层训练至收敛,用获得的参数初始化所述深层网络的各隐含层的权重。
在第二方面,本发明实施例提出一种用于语音识别声学模型的建模系统,其包括:第一模块,用于用训练数据训练一个隐马尔可夫-混合高斯HMM-GMM模型,该HMM-GMM模型的建模单元为所述训练数据的语音特征经过音素决策树聚类后的三音子状态,所述HMM-GMM模型通过期望最大EM算法获得所述三音子状态的状态转移概率;第二模块,用于基于所述HMM-GMM模型,对所述训练数据语音特征的三音子状态进行强制对齐,获得所述语音特征帧级状态信息;第三模块,用于对作为所述声学模型的深层神经网络进行预训练以得到用于初始化所述深层网络的各隐含层的权重的参数;第四模块,用于基于所述训练数据语音特征的三音子状态采用误差反向传播算法对所述深层神经网络进行训练,更新其各隐含层的权重。
优选地,所述第二模块基于所述HMM-GMM模型,对所述训练数据语音特征的三音子状态进行强制对齐,获得所述语音特征帧级状态信息,具体为:所述第二模块基于所述HMM-GMM模型,将所述训练数据语音特征与其最可能的三音子状态进行对应,获得所述语音特征帧级状态信息。
优选地,所述第三模块对作为所述声学模型的深层神经网络进行预训练以得到用于初始化所述深层网络的各隐含层的权重的参数具体为:所述第三模块利用受限波尔兹曼机基于所述训练数据进行逐层训练至收敛,用获得的参数初始化所述深层网络的各隐含层的权重。
本发明实施例采用三音子状态,基于深层神经网络建模,使用受限波尔兹曼算法初始化所述网络各隐含层的权重,所述权重在后续还可以借助反向误差传播算法被更新,能够有效地缓解所述网络预训练时容易陷入局部极值的风险,并进一步提高声学模型的建模精度。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1是现有的语音识别系统示意图;
图2是本发明实施例的基于上下文相关深层神经网络语音识别系统框图;
图3是本发明实施例的用于语音识别的声学模型的建模方法示意图;
图4是本发明实施例的用于语音识别的声学模型的建模系统示意图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所;北京中科信利技术有限公司,未经中国科学院声学研究所;北京中科信利技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310020010.7/2.html,转载请声明来源钻瓜专利网。