[发明专利]一种基于后验知识监督的噪声鲁棒声学建模方法在审
申请号: | 201810576451.8 | 申请日: | 2018-06-06 |
公开(公告)号: | CN108986788A | 公开(公告)日: | 2018-12-11 |
发明(设计)人: | 潘子春;李葵;李明;张引强;黄影;赵峰;吴立刚;徐海青;章爱武;陈是同;徐唯耀;秦浩;王文清;郑娟;秦婷;梁翀;浦正国;张天奇;余江斌;韩涛;杨维;张才俊 | 申请(专利权)人: | 国网安徽省电力有限公司信息通信分公司;国网信息通信产业集团有限公司;安徽继远软件有限公司;国家电网有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/14;G10L15/20;G10L21/0216;G10L25/03;G10L25/27 |
代理公司: | 合肥维可专利代理事务所(普通合伙) 34135 | 代理人: | 吴明华 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 干净语音 后验概率 学生模型 声学建模 噪声鲁棒 老师 人机交互技术 环境鲁棒性 抗噪性能 声学模型 语音训练 监督 建模 逼近 语音 表现 | ||
1.一种基于后验知识监督的噪声鲁棒声学建模方法,其特征是,包括:
通过老师模型的训练得出干净语音的后验概率分布;
以所述干净语音的后验概率分布为标准来监督学生模型的训练,使学生模型无限逼近老师模型的后验概率分布;
其中,所述老师模型为干净语音训练的模型,所述学生模型为带噪语音训练的模型。
2.根据权利要求1所述的基于后验知识监督的噪声鲁棒声学建模方法,其特征是,所述老师模型的训练,包括:
对干净语音进行特征Xt提取;
对分窗后的特征Xt进行逐帧强制对齐,并得到每一帧语音数据的硬标注;
在强制对齐的基础上对每一个硬标注进行时间维度上的起止点标注;
将所述起止点标注信息与硬标注数据作为监督信息送入DNN模块进行声学模型的建模训练。
3.根据权利要求2所述的基于后验知识监督的噪声鲁棒声学建模方法,其特征是,所述对分窗后的特征进行逐帧强制对齐,通过GMM-HMM模块进行。
4.根据权利要求2所述的基于后验知识监督的噪声鲁棒声学建模方法,其特征是,所述声学模型的建模训练,包括:
将特征Xt作为模型输入,音素硬标注与标注数据作为监督信息,利用前向算法得出逐帧数据的三因素后验概率分布。
5.根据权利要求1所述的基于后验知识监督的噪声鲁棒声学建模方法,其特征是,所述学生模型的训练,包括:
对带噪语音进行初步特征Xs提取;
提取出的音素特征Xs与老师模型的软标注进行平行对齐,从而得到学生模型的软标注;
在初步提取的声学特征基础上提取高层特征,并进行高层特征的降维,提炼出能够对噪声语音不变性进行表征的特征序列;
将高层特征输入DNN模块进行声学模型的建模训练。
6.根据权利要求5所述的基于后验知识监督的噪声鲁棒声学建模方法,其特征是,所述提取高层特征借助CNN网络局部连接与降采样模块进行提取。
7.根据权利要求5所述的基于后验知识监督的噪声鲁棒声学建模方法,其特征是,所述神经网络模块的训练过程以相对熵最小化作为优化准则。
8.根据权利要求7所述的基于后验知识监督的噪声鲁棒声学建模方法,其特征是,所述老师模型和学生模型的后验概率分布差异性,通过相对熵进行量化。
9.根据权利要求8所述的基于后验知识监督的噪声鲁棒声学建模方法,其特征是,所述老师模型和学生模型的相对熵为:
其中:Pt为老师模型的后验概率分布,Qs为学生模型的后验概率分布,i表示三音素状态集合中的次序,phi为三音素状态集合中的第i个状态,Xt表示用于训练老师模型的干净语音特征,Xs表示用于训练学生模型的带噪语音特征,Pt(phi︱Xt)表示特征Xt被识别为第i个三音素状态的后验概率,Qs(phi︱Xs)表示特征Xs被识别为第i个三音素状态的后验概率。
10.根据权利要求9所述的基于后验知识监督的噪声鲁棒声学建模方法,其特征是,所述老师模型和学生模型的后验概率分布相对熵为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网安徽省电力有限公司信息通信分公司;国网信息通信产业集团有限公司;安徽继远软件有限公司;国家电网有限公司,未经国网安徽省电力有限公司信息通信分公司;国网信息通信产业集团有限公司;安徽继远软件有限公司;国家电网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810576451.8/1.html,转载请声明来源钻瓜专利网。