[发明专利]客服电话语音转录文本方法、系统、设备及存储介质有效
申请号: | 202011077191.3 | 申请日: | 2020-10-10 |
公开(公告)号: | CN112217947B | 公开(公告)日: | 2021-09-21 |
发明(设计)人: | 朱城锜;罗超;胡泓;李巍 | 申请(专利权)人: | 携程计算机技术(上海)有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/02;G10L15/26;G10L19/16;H04M3/53 |
代理公司: | 上海隆天律师事务所 31282 | 代理人: | 夏彬 |
地址: | 200233 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 客服 电话 语音 转录 文本 方法 系统 设备 存储 介质 | ||
1.一种客服电话语音转录文本方法,其特征在于,包括如下步骤:
采集待转录的客服电话语音;
提取所述待转录的客服电话语音的语音特征;
将提取的语音特征输入训练好的语音识别模型,所述语音识别模型包括声学编码器和解码器,所述声学编码器包括基于自注意力机制的Transformer模块,所述解码器包括基于字的Transducer模型;
获取所述语音识别模型输出的文本;
提取所述待转录的客服电话语音的语音特征,包括如下步骤:
将所述待转录的客服电话语音进行切割,得到多个音频片段;
对每个音频片段分别提取每帧的梅尔语谱图特征,作为所述音频片段的语音特征;
所述语音识别模型还包括形状变换层,所述形状变换层用于对每个音频片段的梅尔语谱图特征进行预设倍数的降采样,降采样后的梅尔语谱图特征送入所述声学编码器。
2.根据权利要求1所述的客服电话语音转录文本方法,其特征在于,所述形状变换层用于采用如下步骤对每个音频片段的梅尔语谱图特征进行预设倍数的降采样:
所述形状变换层将每个音频片段中相邻两帧梅尔语谱图特征进行堆叠,从而将特征维度增加一倍,并将时间维度降低一倍;
所述形状变换层将每个音频片段中梅尔语谱图特征在时间维度按照奇偶拆分为两个通道。
3.根据权利要求1所述的客服电话语音转录文本方法,其特征在于,所述声学编码器包括两层二维卷积层和12层的所述Transformer模块。
4.根据权利要求1所述的客服电话语音转录文本方法,其特征在于,所述解码器包括联合网络、LSTM预测模型和softmax层,所述声学编码器的输出送入所述联合网络,所述联合网络的输出送入所述softmax层,所述softmax层输出的前一帧的预测结果经所述LSTM预测模型编码后送入所述联合网络。
5.根据权利要求1所述的客服电话语音转录文本方法,其特征在于,还包括采用如下步骤训练所述语音识别模型:
采集作为样本的客服电话语音,并对样本进行文本标注;
提取所述作为样本的客服电话语音的梅尔语谱图特征,输入语音识别模型,所述语音识别模型包括依次串联的形状变换层、声学编码器和解码器,所述形状变化层对所述梅尔语谱图特征进行预设倍数的降采样,降采样后的梅尔语谱图特征送入所述声学编码器;
根据所述语音识别模型的解码器对样本的预测和样本的文本标注,计算损失函数,并根据损失函数迭代训练所述语音识别模型。
6.根据权利要求5所述的客服电话语音转录文本方法,其特征在于,所述采集作为样本的客服电话语音,并对样本进行文本标注,包括如下步骤:
采集作为样本的客服电话语音;
对所述作为样本的客服电话语音进行文本标注;
采集环境噪声数据,将环境噪声数据以预设的随机信噪比加入所述作为样本的客服电话语音中;
采集说话噪声数据,将说话噪声数据以预设的随机信噪比加入所述作为样本的客服电话语音中。
7.根据权利要求5所述的客服电话语音转录文本方法,其特征在于,所述根据损失函数迭代训练所述语音识别模型时,还包括采用如下步骤修正样本的文本标注:
获取所述语音识别模型的解码器对样本的预测文本,与对应的文本标注计算编辑距离,并记录每个样本的插入错误、删除错误和替换错误的数量;
将插入错误大于第一阈值或删除错误和替换错误之和大于第二阈值的样本通过人工修正对应的文本标注。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于携程计算机技术(上海)有限公司,未经携程计算机技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011077191.3/1.html,转载请声明来源钻瓜专利网。