[发明专利]文本纠错方法、装置、电子设备及存储介质有效
申请号: | 202111093910.5 | 申请日: | 2021-09-17 |
公开(公告)号: | CN113627160B | 公开(公告)日: | 2023-09-22 |
发明(设计)人: | 李骁;赖众程;王亮;高洪喜;许海金;吴鹏召;李会璟;李兴辉;周柱君 | 申请(专利权)人: | 平安银行股份有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/242;G06F40/289 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 纠错 方法 装置 电子设备 存储 介质 | ||
1.一种文本纠错方法,其特征在于,所述方法包括:
获取待处理文本,对所述待处理文本进行分词处理,得到分词集;
对所述分词集中的各个分词进行同音词查询,得到所述分词对应的同音词列表;
利用所述同音词列表中的同音词对所述分词集中的分词进行替换,得到多个标准文本,并分别计算每个所述标准文本的困惑度,选择所述困惑度大于或者等于预设的困惑阈值的标准文本为目标文本;
利用预构建的标准纠错模型对所述目标文本进行纠错处理,得到初始纠错结果;
利用预设的豁免词典剔除所述初始纠错结果中的豁免词,得到标准纠错结果;
其中,所述利用预构建的标准纠错模型对所述目标文本进行纠错处理,得到初始纠错结果之前,所述方法还包括:获取训练文本集,对所述训练文本集进行编码处理,得到训练向量集;对所述训练向量集进行特征提取处理,得到特征向量集;将所述特征向量集输入至预设文本纠错模型中的全连接层进行概率计算,得到预测概率值集;计算所述预测概率值集中预测概率值和预设的真实概率值之间的交叉熵损失值;根据所述交叉熵损失值调整所述预设文本纠错模型的内部参数,直到所述交叉熵损失值小于预设的损失阈值,得到标准纠错模型;
所述计算所述预测概率值集中预测概率值和预设的真实概率值之间的交叉熵损失值,包括:利用如下计算公式计算交叉熵损失值:
其中,L为交叉熵损失值,x为训练文本集中的训练文本,y为预设的真实概率值,a为预测概率值,n表示训练文本集中训练文本的总数;
所述利用预设的豁免词典剔除所述初始纠错结果中的豁免词,得到标准纠错结果,包括:判断所述初始纠错结果中是否存在与所述豁免词典中一致的豁免词;若所述初始纠错结果中存在与所述豁免词典中一致的豁免词,则将所述豁免词进行剔除,得到标准纠错结果;
所述豁免词典是针对各种不同的应用场景下的专有词汇进行统计汇总形成的设定词典。
2.如权利要求1所述的文本纠错方法,其特征在于,所述对所述待处理文本进行分词处理,得到分词集,包括:
删除所述待处理文本中的特殊词和停用词,得到初始文本;
将所述初始文本输入预设的基准分词器中,得到多个分词并汇总得到分词集。
3.如权利要求1所述的文本纠错方法,其特征在于,所述对所述分词集中的各个分词进行同音词查询,得到所述分词对应的同音词列表,包括:
获取预设的同音词词库;
根据所述同音词词库查询所述各个分词对应的同音词,并对所述同音词进行汇总,得到所述分词对应的同音词列表。
4.如权利要求1所述的文本纠错方法,其特征在于,所述分别计算每个所述标准文本的困惑度,包括:
利用如下计算公式分别计算每个所述标准文本的困惑度:
其中,PP(S)为所述困惑度,N为所述标准文本中的分词个数,wi为第i个分词,p(w1w2…wi-1)为分词w1w2…wi-1出现的概率。
5.一种文本纠错装置,用于实现如权利要求1至4中任意一项所述的文本纠错方法,其特征在于,所述装置包括:
文本分词模块,用于获取待处理文本,对所述待处理文本进行分词处理,得到分词集;
同音词查询模块,用于对所述分词集中的各个分词进行同音词查询,得到所述分词对应的同音词列表;
困惑度计算模块,用于利用所述同音词列表中的同音词对所述分词集中的分词进行替换,得到多个标准文本,并分别计算每个所述标准文本的困惑度,选择所述困惑度大于或者等于预设的困惑阈值的标准文本为目标文本;
文本纠错模块,用于利用预构建的标准纠错模型对所述目标文本进行纠错处理,得到初始纠错结果,利用预设的豁免词典剔除所述初始纠错结果中的豁免词,得到标准纠错结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安银行股份有限公司,未经平安银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111093910.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:投诉量预测方法、装置、设备及存储介质
- 下一篇:室内穹顶结构及其施工方法