[发明专利]一种自适应纠偏方法、装置、可读介质及电子设备有效
申请号: | 201811620198.8 | 申请日: | 2018-12-28 |
公开(公告)号: | CN109858473B | 公开(公告)日: | 2023-03-07 |
发明(设计)人: | 凤博;郭潇宇 | 申请(专利权)人: | 天津幸福生命科技有限公司;金色熊猫有限公司 |
主分类号: | G06V30/14 | 分类号: | G06V30/14;G06V30/19;G06F40/289 |
代理公司: | 北京嘉科知识产权代理事务所(特殊普通合伙) 11687 | 代理人: | 刘力 |
地址: | 301800 天津市宝坻区天*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自适应 纠偏 方法 装置 可读 介质 电子设备 | ||
本发明公开了一种自适应纠偏方法、装置、可读介质及电子设备,该方法包括:从预设的各个样本词组中确定出与待纠偏词组相似度最大的候选纠偏词组;S2、确定所述待纠偏词组与所述候选纠偏词组的杰卡德系数是否大于第一预设值,如果是则执行S3,如果否则执行S4;S3、将所述候选纠偏词组确定为所述待纠偏词组对应的纠偏词组;S4、删除所述待纠偏词组的至少一个字符,并将删除所述至少一个字符的所述待纠偏词组作为所述待纠偏词组,执行S1。通过本发明的技术方案,可更为准确的实现对待纠偏词进行纠偏。
技术领域
本发明涉及计算机技术领域,尤其涉及一种自适应纠偏方法、装置、可读介质及电子设备。
背景技术
光学字符识别(OCR,Optical CharacterRecognition)是对图像文件进行识别提取字符及版面信息的过程。图像文件的质量直接影响识别结果的准确性,因此,通常需要对识别结果中由若干字符构成的词组进行纠偏以得到更为准确的词组。
目前,主要通过对大量样本词组进行训练以得到神经网络模型,通过训练的神经网络模型对待纠偏词组进行拟合纠偏以得到与其对应的纠偏词组。
通过神经网络模型对待纠偏词进行拟合纠偏时,极易发生过拟合现象,导致拟合纠偏过程中过度重视待纠偏词中参考意义较小的字符(比如,错误字符或数字)而无法得到准确的纠偏词组,即无法准确的实现对待纠偏词进行纠偏。
发明内容
本发明提供一种纠偏方法方法、装置、可读介质及电子设备,可更为准确的实现对待纠偏词进行纠偏。
第一方面,本发明提供了一种自适应纠偏方法,包括:
S1、从预设的各个样本词组中确定出与待纠偏词组相似度最大的候选纠偏词组;
S2、确定所述待纠偏词组与所述候选纠偏词组的杰卡德系数是否大于第一预设值,如果是则执行S3,如果否则执行S4;
S3、将所述候选纠偏词组确定为所述待纠偏词组对应的纠偏词组;
S4、删除所述待纠偏词组的至少一个字符,并将删除所述至少一个字符的所述待纠偏词组作为所述待纠偏词组,执行S1。
优选地,
还包括:
S21a、当所述杰卡德系数大于所述第一预设值时,确定所述候选纠偏词组中是否包括第一指定字符,如果是则执行S21b,如果否则执行S3;
S21b,确定所述候选纠偏词中位于所述第一指定字符内的各个字符的第一字符总量,以及确定所述待纠偏词组的第二字符总量,检测所述第一字符总量与所述第二字符总量的比值是否大于第二预设值,如果是则执行S5,如果否则执行S3;
S5、删除所述待纠偏词组中位于所述第一指定字符内的各个当前字符,并将删除各个所述当前字符的所述待纠偏词组作为所述待纠偏词组,执行S1。
优选地,
还包括:
S22:当所述杰卡德系数大于所述第一预设值时,确定所述待纠偏词组的各个字符与所述候选纠偏词组的各个字符之间的相同字符,确定各个所述相同字符的第三字符总量以及各个所述相同字符中至少一个第二指定字符的第四字符总量,检测所述第四字符总量与所述第三字符总量的比值是否大于第三预设值,如果是则执行S6,如果否则执行S3;
S6、删除所述待纠偏词组的各个所述第二指定字符,并将删除各个所述第二指定字符的所述待纠偏词组作为所述待纠偏词组,执行S1。
优选地,
所述至少一个第二指定字符的字符类型包括字母、数字及括号。
优选地,
还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津幸福生命科技有限公司;金色熊猫有限公司,未经天津幸福生命科技有限公司;金色熊猫有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811620198.8/2.html,转载请声明来源钻瓜专利网。