[发明专利]一种语音客服文本纠错的方法和装置在审
申请号: | 202010929561.5 | 申请日: | 2020-09-07 |
公开(公告)号: | CN111985213A | 公开(公告)日: | 2020-11-24 |
发明(设计)人: | 王永康;杜倩云;吴培浩 | 申请(专利权)人: | 科大讯飞华南人工智能研究院(广州)有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/242;G06F40/295;G06F40/194;G06F40/30;G10L15/06;G10L15/22;G10L15/26 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 511458 广东省广州市南沙区丰泽东路106*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 客服 文本 纠错 方法 装置 | ||
1.一种语音客服文本纠错的方法,其特征在于,包括:
对用户输入语音进行通用语音识别,获得第一语音识别文本;
将所述第一语音识别文本输入文本错误识别模型,获得所述第一语音识别文本中错误位置;
基于所述第一语音识别文本中错误位置进行纠错,获得第二语音识别文本;
其中,所述文本错误识别模型是基于由通用领域语料、语音客服领域语料获得的第一训练文本,以及所述第一训练文本中每个位置的训练标签训练第一语言模型获得的;所述训练标签为正确标签或错误标签。
2.根据权利要求1所述的方法,其特征在于,所述第一语言模型包括第一输入层、第一语义表示层和第一输出层;对应地,所述文本错误识别模型的获得步骤包括:
将所述第一训练文本中各个字、各个词输入所述第一输入层,获得所述第一训练文本的向量矩阵;
将所述第一训练文本的向量矩阵输入所述第一语义表示层,获得所述第一训练文本的语义特征向量;
将所述第一训练文本的语义特征向量输入所述第一输出层,获得所述第一训练文本中每个位置的标签预测数据;
基于所述第一训练文本中每个位置的标签预测数据和所述第一训练文本中每个位置的训练标签,调整所述第一语言模型的网络参数,获得所述文本错误识别模型。
3.根据权利要求1所述的方法,其特征在于,所述第一训练文本的获得步骤包括:
对所述通用领域语料中各个字进行随机替换,获得替换通用领域语料;
比较所述通用领域语料和所述替换通用领域语料,确定所述替换通用领域语料中替换位置和未替换位置;
将所述替换通用领域语料确定为所述第一训练文本;所述替换通用领域语料中替换位置的训练标签为错误标签,所述替换通用领域语料中未替换位置的训练标签为正确标签;
对所述语音客服领域语料进行纠错,获得纠错语音客服领域语料;
比较所述语音客服领域语料和所述纠错语音客服领域语料,确定所述语音客服领域语料中正确位置和错误位置;
将所述语音客服领域语料确定为所述第一训练文本;所述语音客服领域语料中正确位置的训练标签为正确标签,所述语音客服领域语料中错误位置的训练标签为错误标签。
4.根据权利要求2所述的方法,其特征在于,所述将所述第一语音识别文本输入文本错误识别模型,获得所述第一语音识别文本中错误位置,包括:
将所述第一语音识别文本中各个字、各个词输入所述第一输入层,获得所述第一语音识别文本的向量矩阵;
将所述第一语音识别文本的向量矩阵输入所述第一语义表示层,获得所述第一语音识别文本的语义特征向量;
将所述第一语音识别文本的语义特征向量输入所述第一输出层,获得所述第一语音识别文本中每个位置的标签预测数据;
基于第一语音识别文本中每个位置的标签预测数据,确定所述第一语音识别文本中错误位置。
5.根据权利要求1所述的方法,其特征在于,所述基于所述第一语音识别文本中错误位置进行纠错,获得第二语音识别文本,包括:
拼接所述第一语音识别文本和所述第一语音识别文本的上文,获得语音识别输入文本;所述语音识别输入文本中错误位置为所述第一语音识别文本中错误位置;
获得所述语音识别输入文本的拼音;从所述第一语音识别文本对应的候选纠错字词典中,获得所述语音识别输入文本中错误位置对应的各个候选纠错字;
将所述语音识别输入文本、所述语音识别输入文本的拼音,以及所述语音识别输入文本中错误位置对应的各个候选纠错字输入文本纠错模型,获得所述第一语音识别文本对应的第二语音识别文本;
其中,所述文本纠错模型是基于第二训练文本、所述第二训练文本的拼音和所述第二训练文本中错误位置对应的纠错字训练第二语言模型获得的;所述第二训练文本是拼接所述语音客服领域语料和所述语音客服领域语料的上文获得的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞华南人工智能研究院(广州)有限公司,未经科大讯飞华南人工智能研究院(广州)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010929561.5/1.html,转载请声明来源钻瓜专利网。