[发明专利]构建压缩的语音识别模型的方法在审
申请号: | 202010414344.2 | 申请日: | 2020-05-15 |
公开(公告)号: | CN111627428A | 公开(公告)日: | 2020-09-04 |
发明(设计)人: | 刘利平;夏春晖 | 申请(专利权)人: | 北京青牛技术股份有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06 |
代理公司: | 北京元合联合知识产权代理事务所(特殊普通合伙) 11653 | 代理人: | 李非非 |
地址: | 100000 北京市石景*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 构建 压缩 语音 识别 模型 方法 | ||
本发明提供了一种构建压缩的语音识别模型的方法,该方法包括:采集音频数据;提供经过训练的教师模型,将所述音频数据输入至所述教师模型,获得所述教师模型针对所述音频数据输出的软化概率分布向量;提供经过初始化的学生模型,将所述音频数据作为输入,以及将所述软化概率分布向量作为监督信号,训练所述学生模型;对训练后的学生模型进行压缩处理;利用根据所述音频数据对应的转录文本生成的语言模型对压缩处理后的学生模型进行超参数优化处理,以获得压缩的语音识别模型。此外,本发明还提供相应的计算机介质。
技术领域
本发明涉及语音识别的神经网络算法领域,尤其涉及一种构建压缩的语音识别模型的方法。
背景技术
目前,智能呼叫中心通常使用语音识别模型来实现实时语音识别,为了获得较好的场景、客户意图等角度的预测性能,往往需要对复杂的语音识别模型进行训练,所述训练的效率取决于所能获得的计算资源,当计算资源不足,尤其是面对智能呼叫中心所配备的计算能力有限的低成本硬件时,在模型部署阶段就需要考虑模型的大小、计算复杂度、速度等诸多因素,具有过于庞大的模型参数数量和复杂度的语音识别模型不利于在上述有限的设备规模中进行训练和推广。
因此,对于复杂的语音识别模型,迫切需要在不影响其预测性能,甚至在提升其预测性能的前提下,尽可能地降低该语音识别模型的复杂度,以从中构建出一个所需计算资源更小的语音识别模型。
发明内容
为了克服现有技术中的上述缺陷,本发明提供了构建压缩的语音识别模型的方法,该方法包括:
采集音频数据;
提供经过训练的教师模型,将所述音频数据输入至所述教师模型,获得所述教师模型针对所述音频数据输出的软化概率分布向量;
提供经过初始化的学生模型,将所述音频数据作为输入,以及将所述软化概率分布向量作为监督信号,训练所述学生模型;
对训练后的学生模型进行压缩处理;
利用根据所述音频数据对应的转录文本生成的语言模型对压缩处理后的学生模型进行超参数优化处理,以获得压缩的语音识别模型。
根据本发明的一个方面,该方法中所述软化概率分布向量是:根据所述教师模型针对所述音频数据的预测输出结果,在特定温度参数值下通过所述教师模型的softmax函数输出的软目标。
根据本发明的另一个方面,该方法中所述对训练后的学生模型进行压缩处理的步骤包括:对所述训练后的学生模型执行核稀疏化处理。
根据本发明的另一个方面,该方法中所述对训练后的学生模型进行压缩处理的步骤还包括:对所述训练后的学生模型执行模型剪枝处理。
根据本发明的另一个方面,该方法中所述对训练后的学生模型进行压缩处理的步骤还包括:对所述训练后的学生模型执行矩阵量化处理。
根据本发明的另一个方面,该方法中所述语言模型是N-gram模型。
相应地,本发明还提供了一个或多个存储计算机可执行指令的计算机可读介质,所述指令在由一个或多个计算机设备使用时使得一个或多个计算机设备执行如前文所述的构建压缩的语音识别模型的方法。
本发明提供的构建压缩的语音识别模型的方法使用了教师模型输出的软化概率分布向量作为训练学生模型的监督信号,实现学生模型的压缩和训练加速,结合对训练后的学生模型进行的进一步压缩处理和超参数优化处理,可获得压缩的语音识别模型,相比复杂度较高的教师模型,所述压缩的语音识别模型训练和运行所需的计算资源更小,便于在低成本的硬件环境中进行部署。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京青牛技术股份有限公司,未经北京青牛技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010414344.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于车货在线配载的智能配对方法
- 下一篇:OLED显示面板