[发明专利]文本纠错方法、装置及存储介质有效
申请号: | 202011030582.X | 申请日: | 2020-09-27 |
公开(公告)号: | CN111931490B | 公开(公告)日: | 2021-01-08 |
发明(设计)人: | 郭招 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/237;G06F16/35 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 纠错 方法 装置 存储 介质 | ||
1.一种文本纠错方法,其特征在于,包括:
获取医疗领域的待纠错文本;
将所述医疗领域的待纠错文本输入到微调后与所述医疗领域对应的网络模型,确定所述待纠错文本中的待纠错单词;
通过所述网络模型对所述待纠错单词进行纠错,得到纠错后的文本,具体包括:获取所述待纠错单词对应的至少一个候选待纠错单词;获取所述至少一个候选待纠错单词中每个候选待纠错单词对应的实体类型,通过所述网络模型对所述每个候选待纠错单词以及所述每个候选待纠错单词对应的实体类型进行编码,得到所述每个候选待纠错单词对应的编码向量;通过所述网络模型对所述待纠错文本中的每个单词对应的词向量以及所述每个候选待纠错单词对应的编码向量进行融合处理,得到所述每个候选待纠错单词的目标特征向量;根据所述每个候选待纠错单词的目标特征向量,得到所述每个候选待纠错单词对应的评分,所述评分用于表示使用所述每个候选待纠错单词对所述待纠错文本中的待纠错单词进行替换后的文本的合理度;使用评分最大的候选待纠错单词对所述待纠错文本中的所述待纠错单词进行替换,得到纠错后的文本。
2.根据权利要求1所述的方法,其特征在于,在获取待纠错文本之前,所述方法还包括:
获取第一文本序列;
确定所述第一文本序列中的待替换单词,所述待替换单词为所述第一文本序列中的部分单词;
对所述待替换单词进行替换,得到与所述第一文本序列对应的至少一个第二文本序列;
将所述至少一个第二文本序列中的每个第二文本序列作为一个训练样本,对所述网络模型进行训练,得到预训练模型;
对所述预训练模型进行微调,得到微调后与所述医疗领域对应的网络模型。
3.根据权利要求2所述的方法,其特征在于,所述确定所述第一文本序列中的待替换单词,包括:
通过随机函数生成一个随机采样率;
根据所述随机采样率对所述第一文本序列进行采样,得到所述第一文本序列中的待替换单词。
4.根据权利要求2所述的方法,其特征在于,所述待替换单词包括第一待替换单词和第二待替换单词,所述对所述待替换单词进行替换,得到与所述第一文本序列对应的至少一个第二文本序列,包括:
从字典库中随机获取至少一个第一候选单词;
从所述字典库中获取与所述第二待替换单词对应的至少一个第二候选单词,所述至少一个第二候选单词中的每个第二候选单词为以下一种:与所述第二待替换单词对应的谐音单词、音近单词、形近词以及词顺序颠倒单词;
使用所述至少一个第一候选单词中的每个第一候选单词对第一待替换词进行替换以及使用所述每个第二候选单词对第二待替换词汇进行替换,得到与所述第一文本序列对应的至少一个第二文本序列。
5.根据权利要求4所述的方法,其特征在于,所述将所述至少一个第二文本序列中的每个第二文本序列作为一个训练样本,对所述网络模型进行训练,得到预训练模型,包括:
将所述每个第二文本序列输入到所述网络模型,得到所述第二文本序列中每个单词的预测结果,所述每个单词的预测结果用于表示预测的所述每个单词是否被替换;以及对所述每个第二文本序列进行纠错后的第三文本序列;
根据所述每个单词的预测结果以及真实结果,得到第一损失,所述每个单词的真实结果用于表示预先标注的所述每个单词是否被替换;
根据所述每个单词的预测结果和真实结果,得到第一损失;
根据所述第三文本序列以及所述第一文本序列,得到第二损失;
根据所述第一损失和所述第二损失,调整所述网络模型的网络参数,以对所述网络模型进行训练,得到预训练模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011030582.X/1.html,转载请声明来源钻瓜专利网。