[发明专利]目标任务分布估计和声学模型自适应方法及系统有效
申请号: | 201410007278.1 | 申请日: | 2014-01-07 |
公开(公告)号: | CN104766611A | 公开(公告)日: | 2015-07-08 |
发明(设计)人: | 贺志阳;吕萍;吴及;胡国平;胡郁 | 申请(专利权)人: | 安徽科大讯飞信息科技股份有限公司 |
主分类号: | G10L15/30 | 分类号: | G10L15/30;G10L15/065 |
代理公司: | 北京维澳专利代理有限公司 11252 | 代理人: | 王立民;吉海莲 |
地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标 任务 分布 估计 声学 模型 自适应 方法 系统 | ||
1.一种目标任务分布估计方法,其特征在于,包括:
获取所述目标任务相应于候选语音识别结果数据集的分布,作为所述目标任务的覆盖度分布;
获取所述候选语音识别结果数据集中首选语音识别结果的置信度小于等于第一置信度门限值的语音识别结果,构成第一低置信度数据集;
获取所述目标任务相应于所述第一低置信度数据集的分布,作为所述目标任务的混淆度分布;
对所述目标任务的覆盖度分布和混淆度分布进行融合,获得所述目标任务分布。
2.根据权利要求1所述的目标任务分布估计方法,其特征在于,所述获取所述目标任务相应于候选语音识别结果数据集的分布包括:
将所述目标任务分解为各语音单元;
计算所述语音单元在所述候选语音识别结果数据集的各语音识别结果中的出现频率,作为所述语音单元的第一出现频率;
获取所述目标任务中所有语音单元的所述第一出现频率,作为所述目标任务相应于候选语音识别结果数据集的分布。
3.根据权利要求2所述的目标任务分布估计方法,其特征在于,所述获取所述目标任务相应于所述第一低置信度数据集的分布包括;
计算所述语音单元在所述第一低置信度数据集的各语音识别结果中的出现频率,作为所述语音单元的第二出现频率;
获取所述目标任务中所有语音单元的所述第二出现频率,作为所述目标任务相应于所述第一低置信度数据集的分布。
4.根据权利要求3所述的目标任务分布估计方法,其特征在于,所述对所述目标任务的覆盖度分布和混淆度分布进行融合,获得所述目标任务分布包括:
对所述语音单元的第一出现频率和第二出现频率进行线性加权,获得所述语音单元的融合出现频率;
获取所述目标任务中所有语音单元的融合出现频率作为所述目标任务分布。
5.一种声学模型自适应方法,其特征在于,包括:
根据权利要求1至4中任一项所述的目标任务分布估计方法获取目标任务分布;
从候选语音识别结果数据中挑选自适应数据,使自适应数据的分布与所述目标任务分布最接近;
利用所述自适应数据对当前声学模型进行模型参数的自适应调整,获取优化的声学模型。
6.根据权利要求5所述的声学模型自适应方法,其特征在于,所述从候选语音识别结果数据中挑选自适应数据包括:
获取所述候选语音识别结果数据集中首选语音识别结果的置信度小于等于第二置信度门限值的语音识别结果,构成第二低置信度数据集;
从所述第二低置信度数据集中挑选低置信度数据,使低置信度数据的分布与所述目标任务分布最接近;
对所述低置信度数据进行人工标注,使进行人工标注的低置信度数据成为一部分自适应数据;
从首选语音识别结果数据集中补充挑选另一部分自适应数据,使所述自适应数据的分布与所述目标任务分布最接近。
7.根据权利要求6所述的声学模型自适应方法,其特征在于,从所述第二低置信度数据集中挑选低置信度数据,使低置信度数据的分布与所述目标任务分布最接近包括:
将所述低置信度数据作为所述目标任务获取所述低置信度数据的分布。
8.根据权利要求7所述的声学模型自适应方法,其特征在于,从所述第二低置信度数据集中挑选低置信度数据,使低置信度数据的分布与所述目标任务分布最接近还包括:
基于KL距离通过贪心算法挑选所述低置信度数据,其中初始的已挑选数据集为空集,备选数据集为第二低置信度数据集。
9.根据权利要求6所述的声学模型自适应方法,其特征在于,从首选语音识别结果数据集中补充挑选另一部分自适应数据,使所述自适应数据的分布与所述目标任务分布最接近包括:
获取所述自适应数据相应于所述首选语音识别结果数据集的分布作为所述自适应数据的分布。
10.根据权利要求9所述的声学模型自适应方法,其特征在于,从首选语音识别结果数据集中补充挑选另一部分自适应数据,使所述自适应数据的分布与所述目标任务分布最接近还包括:
基于KL距离通过贪心算法挑选所述另一部分自适应数据,其中,初始的已挑选数据集由所述进行人工标注的低置信度数据构成,备选数据集为所述首选语音识别结果数据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽科大讯飞信息科技股份有限公司,未经安徽科大讯飞信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410007278.1/1.html,转载请声明来源钻瓜专利网。