[发明专利]目标任务分布估计和声学模型自适应方法及系统有效

申请号：	201410007278.1	申请日：	2014-01-07
公开（公告）号：	CN104766611A	公开（公告）日：	2015-07-08
发明（设计）人：	贺志阳;吕萍;吴及;胡国平;胡郁	申请（专利权）人：	安徽科大讯飞信息科技股份有限公司
主分类号：	G10L15/30	分类号：	G10L15/30;G10L15/065
代理公司：	北京维澳专利代理有限公司 11252	代理人：	王立民;吉海莲
地址：	230088 安徽省***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	目标任务分布估计声学模型自适应方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及语音识别领域，尤其涉及一种面向任务的声学模型自适应方法及系统。

背景技术

自20世纪90年代起，研究人员针对语音识别系统中的声学模型提出了说话人自适应技术，如最大似然线性回归（MLLR）、最大后验概率（MAP）等，通过该技术，仅需采集少量说话人数据即可对原始声学模型（预先在大量通用数据上训练得到的说话人无关模型）进行优化调整，使得调整后的声学模型能够更加接近说话人特点，进而提高识别准确率。近年来，随着移动互联网和云计算的高速发展，语音识别技术更加普及，其应用环境也日趋复杂化，面向任务的声学模型自适应技术已成为新的研究热点。面向任务（指语音识别任务）的声学模型自适应技术针对具体的识别应用对声学模型参数进行自适应调整，使得调整后的声学模型参数与语音识别任务更加匹配进而获得更好的识别性能。传统的针对具体说话人的说话人自适应技术已不能满足应用的需求。

传统的面向语音识别任务的声学模型自适应方法包括如下步骤：

步骤A：统计具体语音识别任务中基本语音单元的出现频率作为目标任务分布；其中的基本语音单元通常为音节单元、音素单元等基本识别单元。在统计基本语音单元的分布时，系统通常根据任务相关的人工标注训练数据（即对语音识别任务进行人工识别的结果数据）或者任务相关的语音识别结果数据（即系统对语音识别任务进行识别的结果数据）进行统计，统计各基本语音单元在上述数据中的出现频率作为目标任务分布。

步骤B：根据所述目标任务分布从任务相关的人工标注训练数据或者任务相关的语音识别结果数据中挑选自适应数据，使自适应数据的分布与目标任务分布一致。

在步骤B中，通过基于KL距离（Kullback-Leibler Divergence）通过贪心算法挑选该自适应数据，具体步骤如下：

步骤B1：将任务相关的人工标注训练数据或者任务相关的语音识别结果数据作为备选数据集合，设定已挑选数据集为空集，并设定挑选数据量。

步骤B2：依次考察备选数据集合中的每一个数据，其中，考察当前数据的方法为：将当前数据放入已挑选数据集合，计算已挑选数据集合的分布与目标任务分布的KL距离，之后恢复已挑选数据集合。

步骤B3：选择步骤B2中使得新的已挑选数据集合与目标任务分布的KL距离最小的数据作为本次的挑选对象，将该数据放入已挑选数据集合，并从备选数据集合中删除该数据。

步骤B4：判断已挑选数据集中的数据量是否达到设定的挑选数据量，如果达到，则退出挑选步骤，否则，继续执行步骤B2。

步三：对步骤B中挑选的自适应数据进行人工标注修正；如果备选数据集合来源于任务相关的语音识别结果数据，那么为了保证自适应数据的正确性还需要对所挑选的自适应数据进行人工标注修正，如果备选数据集合来源于任务相关的人工标注训练数据，则省略步骤三。

步四：利用所挑选的自适应数据对原有声学模型进行模型参数的自适应调整，获取优化的声学模型。

由此可见，以上传统的面向语音识别任务的声学模型自适应方法主要基于语音单元分布一致性的原则挑选自适应数据，该种方法的实现简单直接，且取得了一定的成果，但在实际应用中依然存在以下缺陷：

1.计算目标任务分布存在一定的不确定性，比如：传统方法挑选的自适应数据仅考虑自适应数据具有和具体任务一致的语音单元数据覆盖度，而语音识别系统性能的提升需要重点提高原系统中识别效果较差的语音单元识别情况，因而在保证数据平衡的条件下合理关注识别较差的语音单元的数据对提高系统性能有实际意义。

2.传统的基于任务相关的人工标注训练数据的覆盖度分析存在一定的问题，一方面要估计较为准确的数据分布需要较大量的人工标注数据，另一个方面人工标注数据往往不是时效性很强的数据，使用这些数据估计的分布难以真实反映当前系统中的数据分布情况。

3.传统的基于语音识别结果数据的覆盖度分布，虽然可以保证分布的时效性，但是由于语音识别结果往往有误，据此获得的分布估计也并不准确。

4.所挑选的自适应数据不一定满足应用需求，这体现在传统的任务自适应方法如果基于人工标注数据进行数据挑选，那么在人工标注的数据量方面存在一定的问题，如果人工标注的数据量不充足，则难以保证达到挑选的自适应数据的分布与估计的数据分布尽可能的接近的目标，而如果要达到这样的目标，就需要大量的人工标注数据作为挑选的备选数据，这需要消耗大量的人力标注资源；传统的任务自适应方法如果基于语音识别结果数据进行数据挑选，那么由于识别结果有误，挑选的数据集的数据分布很可能与估计的目标分布有较大差距。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于安徽科大讯飞信息科技股份有限公司，未经安徽科大讯飞信息科技股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201410007278.1/2.html，转载请声明来源钻瓜专利网。

上一篇：一种手术激光头调节机构
下一篇：一种机车录音装置和LKJ监控装置间的时间同步系统和方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]目标任务分布估计和声学模型自适应方法及系统有效

专利文献下载