[发明专利]文本纠错方法、装置、电子设备及存储介质有效
申请号: | 202111093910.5 | 申请日: | 2021-09-17 |
公开(公告)号: | CN113627160B | 公开(公告)日: | 2023-09-22 |
发明(设计)人: | 李骁;赖众程;王亮;高洪喜;许海金;吴鹏召;李会璟;李兴辉;周柱君 | 申请(专利权)人: | 平安银行股份有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/242;G06F40/289 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 纠错 方法 装置 电子设备 存储 介质 | ||
本发明涉及人工智能及数字医疗技术,揭露了一种文本纠错方法,包括:对待处理文本分词,得到分词集,对分词集中的各个分词进行同音词查询,利用查询到的同音词替换对应的分词,得到多个标准文本,分别计算标准文本的困惑度,选择困惑度大于或者等于预设困惑阈值的标准文本为目标文本,利用标准纠错模型对所述目标文执行纠错处理,得到初始纠错结果,利用豁免词典对初始纠错结果进行剔除,得到标准纠错结果。此外,本发明还涉及区块链技术,分词集可存储于区块链的节点。本发明还提出一种文本纠错装置、电子设备以及存储介质。本发明可以提高文本纠错的准确度。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种文本纠错方法、装置、电子设备及计算机可读存储介质。
背景技术
在银行客户投诉处理业务场景下,客户的投诉以投诉工单的形式在业务流程中进行流转处理。在投诉工单的整个生命周期中,在多个节点通常会产生大量文本,这些文本由人工通过键盘打字录入到系统中,因此会不可避免地录入错别字,大量错别字的存在影响了不同业务处理人员的工作效率,继而影响了客户满意度,甚至导致客户进行二次投诉。因需要对文本进行纠错。
目前关于文本纠错的解决方案通常是构建并维护一个大型的纠错语料库,并结合预设规则进行文本纠错,这种方法需要总结一系列的业务规则,且初期构建时人力成本的投入大、后续维护的成本高、进行文本纠错的准确度较低。
发明内容
本发明提供一种文本纠错方法、装置、电子设备及计算机可读存储介质,其主要目的在于解决进行文本纠错的准确度较低的问题。
为实现上述目的,本发明提供的一种文本纠错方法,包括:
获取待处理文本,对所述待处理文本进行分词处理,得到分词集;
对所述分词集中的各个分词进行同音词查询,得到所述分词对应的同音词列表;
利用所述同音词列表中的同音词对所述分词集中的分词进行替换,得到多个标准文本,并分别计算每个所述标准文本的困惑度,选择所述困惑度大于或者等于预设的困惑阈值的标准文本为目标文本;
利用预构建的标准纠错模型对所述目标文本进行纠错处理,得到初始纠错结果;
利用预设的豁免词典剔除所述初始纠错结果中的豁免词,得到标准纠错结果。
可选地,所述对所述待处理文本进行分词处理,得到分词集,包括:
删除所述待处理文本中的特殊词和停用词,得到初始文本;
将所述初始文本输入预设的基准分词器中,得到多个分词并汇总得到分词集。
可选地,所述利用预构建的标准纠错模型对所述目标文本进行纠错处理,得到初始纠错结果之前,所述方法还包括:
获取训练文本集,对所述训练文本集进行编码处理,得到训练向量集;
对所述训练向量集进行特征提取处理,得到特征向量集;
将所述特征向量集输入至所述预设文本纠错模型中的全连接层进行概率计算,得到预测概率值集;
计算所述预测概率值集中预测概率值和预设的真实概率值之间的交叉熵损失值;
根据所述交叉熵损失值调整所述预设文本纠错模型的内部参数,直到所述交叉熵损失值小于预设的损失阈值,得到标准纠错模型。
可选地,所述计算所述预测概率值集中预测概率值和预设的真实概率值之间的交叉熵损失值,包括:
利用如下计算公式计算交叉熵损失值:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安银行股份有限公司,未经平安银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111093910.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:投诉量预测方法、装置、设备及存储介质
- 下一篇:室内穹顶结构及其施工方法