[发明专利]一种基于持续学习的客服通话语音识别方法有效
申请号: | 202211604120.3 | 申请日: | 2022-12-14 |
公开(公告)号: | CN115662401B | 公开(公告)日: | 2023-03-10 |
发明(设计)人: | 何学东;孙晓倩;常利建;杨华;潘瑞平;彭渤;杜维明;张伟蓉;王迪;陈晓龙;孙丽蓉 | 申请(专利权)人: | 国家电网有限公司客户服务中心 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/065;G10L15/26;G10L25/48 |
代理公司: | 天津盛理知识产权代理有限公司 12209 | 代理人: | 霍慧慧 |
地址: | 300300 天*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 持续 学习 客服 通话 语音 识别 方法 | ||
1.一种基于持续学习的客服通话语音识别方法,其特征在于:所述识别方法的步骤为:
S1、使用公开中文语音识别数据集训练初始语音识别模型;
S2、设场景个数为s,对于s=1,为适应第s个95598客服通话业务场景,获取第s个95598客服通话业务场景的语音资料和文本标注资料,使用持续学习方法对所述初始语音识别模型参数进行调整,获得第s个95598客服通话语音识别持续学习模型;
S3、对于s≥2,为适应第s个95598客服通话业务场景,获取第s个95598客服通话业务场景的语音资料和文本标注资料,使用持续学习方法对第s-1个95598客服通话语音识别持续学习模型参数进行调整,获得第s个95598客服通话语音识别持续学习模型;
S4、将待识别的95598客服通话语音输入到第s个95598客服通话语音识别持续学习模型,获得待识别的95598客服通话语音中文文本;
针对95598客服通话的持续学习,初始语音识别模型中的某些参数对旧任务十分重要,改变这些参数会使模型在旧任务中产生灾难性遗忘,因此在学习新任务时只能改变模型中那些对旧任务不太重要的参数;为此,使用EWC持续学习策略,对于第s个95598通话业务场景,其损失函数为:
Ls=Ws++λdDs+λrRs (3)
其中,Ws为字符加权分类损失项,Ds为蒸馏损失项,Rs为持续学习正则化项,λd和λr分别为蒸馏损失项和持续学习正则化项的权重参数;
字符加权分类损失项公式如下:
其中:Ds为第s个95598通话业务场景训练集中所有语音输入信号构成的集合;
|Ds|为集合Ds中的元素个数;
x为Ds中的一个语音输入信号;
L(x)为x对应的文本标注的长度;
Ks为第s个95598客服通话语音识别持续学习模型可以输出的字符集中字符的总个数;
为第s个95598客服通话语音识别持续学习模型可以输出的字符集中各个字符在第s个95598客服通话业务场景中的权重,对于第s个95598客服通话业务场景,其关键字对应的汉字可以赋予较大的权重,使训练得到的第s个95598客服通话语音识别持续学习模型可以准确识别第s个95598客服通话业务场景的关键字;
为x对应的文本标注的第l个字符的量化软标签,即若文本标注的第l个字符是所述第s个95598客服通话语音识别持续学习模型可以输出的字符集中的第i个字符,则为1-ε,否则为ε/(K-1);
ε为平滑值,是一个常数;
为x输入到所述第s个95598客服通话语音识别持续学习模型后,输出的第l个字符是所述第s个95598客服通话语音识别持续学习模型可以输出的字符集中的第i个字符的概率值;
log是自然对数函数;
蒸馏损失项公式如下:
其中:为第s个95598客服通话语音识别持续学习模型在训练开始时,以x为输入,输出的第l个字符是所述第s个95598客服通话语音识别持续学习模型可以输出的字符集中的第i个字符的概率值;其余数学符号的意义与所述字符加权分类损失项Ws中相应数学符号的意义相同,损失函数中蒸馏损失项的权重λd取0;
持续学习正则化项公式如下:
其中:Ms为第s个95598客服通话语音识别持续学习模型的参数个数;
为第s个95598客服通话语音识别持续学习模型的第m个参数;
为第s个95598客服通话语音识别持续学习模型在训练开始时的第m个参数;
为第m个参数的持续学习权重,刻画了第s个95598客服通话语音识别持续学习模型在训练开始时第m个参数对前序所有客服通话业务场景的重要程度,其迭代计算过程如下:
(1)对s=1,对于所述第s个95598客服通话业务场景,为所述初始语音识别模型在所述公开中文语音识别验证集中的基于标签平滑的加权交叉熵损失对第m个参数的二次偏导数;
(2)对S≥2,对于所述的第s个95598客服通话业务场景,为第s-1个客服通话业务场景的第m个参数的持续学习权重加上第s-1个客服通话业务场景训练得到的语音识别持续学习模型在第s-1个客服通话业务场景验证集中的基于标签平滑的加权交叉熵损失对第m个参数的二次偏导数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家电网有限公司客户服务中心,未经国家电网有限公司客户服务中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211604120.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种恒温阀
- 下一篇:基于服务器的内存处理方法和装置、处理器及电子设备