[发明专利]一种基于OCR识别结果的文本定位纠错方法系统在审
申请号: | 202211495374.6 | 申请日: | 2022-11-27 |
公开(公告)号: | CN115761740A | 公开(公告)日: | 2023-03-07 |
发明(设计)人: | 邵玉斌;张凤;龙华;杜庆治;张昊阁;祁雨婷;杨荣泰 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06V30/12 | 分类号: | G06V30/12;G06V30/14;G06V30/41;G06N20/00;G06F40/211;G06F40/226 |
代理公司: | 昆明明润知识产权代理事务所(普通合伙) 53215 | 代理人: | 王鹏飞 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于OCR识别结果的文本定位纠错方法系统,属于自然语言处理和文字识别技术领域。首先在文本获取模块获取两份识别文本。接着在文本预处理模块对识别文本进行预处理。然后在待纠错字符定位模块利用LCSstr算法,将待纠错字符打上颜色标签,实现定位。接下来在断句提取模块对文本进行断句,利用Bigram模型计算句子困惑度,选择待纠错句子。之后在MLM模型纠错模块中,在预训练中引入形近字库,然后由模型得到待纠错字符的预测集。最后在字形匹配输出模块,计算待纠错字符与预测集关于笔画的字形相似度,得到最佳预测结果,输出修正文本。本发明通过对双引擎文字识别结果进行比对,实现对识别文本的有效纠错。 | ||
搜索关键词: | 一种 基于 ocr 识别 结果 文本 定位 纠错 方法 系统 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202211495374.6/,转载请声明来源钻瓜专利网。
- 上一篇:一种模板机压脚疏通装置
- 下一篇:一种含三氟甲基磺酸尾气处理方法及系统