[发明专利]语音识别模型的数据处理方法及装置有效
申请号: | 202110225198.3 | 申请日: | 2021-03-01 |
公开(公告)号: | CN113077782B | 公开(公告)日: | 2023-01-17 |
发明(设计)人: | 冯大航;陈孝良;常乐 | 申请(专利权)人: | 北京声智科技有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/16 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 张翠华 |
地址: | 100080 北京市海淀区北四*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 模型 数据处理 方法 装置 | ||
本申请公开了语音识别模型的数据处理方法及装置,在语音识别模型进行量化之前首先对语音识别模型的待识别语音特征数据进行标准化处理,降低了模型量化过程中的量化误差。该方法包括:获取输入语音识别模型的待识别语音特征数据;对待识别语音特征数据进行标准化处理得到标准化的待识别语音特征数据,标准化的待识别语音特征数据满足正态分布;对标准化后的待识别语音特征数据进行量化处理。
技术领域
本申请涉及人工智能技术领域,特别涉及语音识别模型的数据处理方法及装置。
背景技术
近些年,神经网络模型被广泛应用在离线自动语音识别等人工智能技术中。但是由于神经网络模型占用内存较大,难以部署在嵌入式设备等产品中,所以需要对神经网络模型的参数进行量化处理,减少内存使用量、提高运算速度,从而提高神经网络模型的部署能力和可扩展性。
目前针对每层使用的神经网络模型参数进行量化的方法是将采用浮点型的参数分别量化为整型数据,但转化后的整型数据与原浮点数据的量化误差较大,同时这个量化误差会传递到下面的其它层,会被逐步放大,使网络的整体量化误差较大,从而影响最终模型的效果。
发明内容
本申请实施例提供一种语音识别模型的数据处理方法及装置,用以降低量化误差,提高模型的准确性。
第一方面,本申请实施例提供了语音识别模型的数据处理方法,包括:
对语音识别模型的待识别语音特征数据进行标准化处理得到标准化的待识别语音特征数据,所述标准化的待识别语音特征数据满足正态分布;
对所述标准化后的待识别语音特征数据进行量化处理。
上述方案中,在语音识别模型量化之前,预先对待识别语音特征数据进行标准化处理,可以降低由于待识别语音特征数据分布不均匀带来的量化误差及误差的逐层传递,提高根据语音识别模型进行运算的准确性。
在一种可能的实现方式中,所述方法还包括:
将经过所述量化处理后的标准化的待识别语音特征数据输入所述语音识别模型得到语音识别结果;
其中,所述语音识别模型使用的权重和残差均满足正态分布。
基于上述方案,将输入语音识别模型的待识别语音特征数据首先进行标准化和量化处理,可以使得识别过程更加迅速,并且得到的语音识别结果更加准确。
在一种可能的实现方式中,对所述待识别语音特征数据进行标准化处理得到标准化的待识别语音特征数据,包括:
根据第一正态分布模型对所述待识别语音特征数据进行标准化处理得到标准化的待识别语音特征数据;
所述第一正态分布模型包括均值、方差,或者,所述第一正态分布模型包括均值、方差和补偿值。
基于上述方案,根据第一正态分布模型得到标准化的待识别语音特征数据,使得待识别语音特征数据满足正态分布,解决了待识别语音特征数据分布不均匀的情况。
在一种可能的实现方式中,所述方法还包括:
调整输入第一模型参数的预设的第二正态分布模型中均值、方差以及补偿值中的一项或多项,使得调整后的所述第二正态分布模型输出标准化的第一模型参数;
所述调整后的所述第二正态分布模型作为所述第一正态分布模型;
其中,所述第一模型参数为所述语音识别模型中的权重、语音特征数据的样本数据或者残差。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京声智科技有限公司,未经北京声智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110225198.3/2.html,转载请声明来源钻瓜专利网。