[发明专利]一种基于机器视觉技术的表单图像缺陷矫正及提取方法在审
申请号: | 202211119734.2 | 申请日: | 2022-09-15 |
公开(公告)号: | CN115471854A | 公开(公告)日: | 2022-12-13 |
发明(设计)人: | 汤力;杜洁;李芹;吴奕;邵馨叶 | 申请(专利权)人: | 云南电网有限责任公司信息中心 |
主分类号: | G06V30/412 | 分类号: | G06V30/412;G06V30/14;G06V30/146;G06V30/18 |
代理公司: | 安徽智联芯知识产权代理事务所(普通合伙) 34237 | 代理人: | 刘书宇 |
地址: | 650000*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 视觉 技术 表单 图像 缺陷 矫正 提取 方法 | ||
本发明涉及一种基于机器视觉技术的表单图像缺陷矫正及提取方法,属于表单处理技术领域,包括该方法包括以下步骤:S1、将表单放置到识别区域;S2、通过图像摄取装置将表单上的信息转换成图像信号;S3、对表单进行校平;S4、对提取的图像信号中的线条进行分析,并对线条进行二次提取;S5、将线条提取出来后,再对线条的交点进行提取;S6、对于不完整的线条在线条的断续处进行延伸连接;S7、在x同方向的每两个交点均连接成一条直线,在y方向的每两个交点均连接成一条直线;S8、将通过交点连接出的表单与线条延伸连接出的表单进行重叠对比。本发明先将表单中线条信息提取处出来,并对缺陷处进行修复,修复完成后再将提取出的文字填入到表单中。
技术领域
本发明涉及表单处理技术领域,尤其涉及一种基于机器视觉技术的表单图像缺陷矫正及提取方法。
背景技术
目前通常应用OCR(光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
利用该技术可以识别大部分的文本文字,但遇到表单时,经常会出现乱码,无法对表单进行正确识别,识别出的表单上的表格线条断断续续,无法判断正确位置,且由于表单上具有线条,导致在对文字进行识别时线条会对文字产生干扰,影响文字识别的准确性。
发明内容
本发明的目的是针对背景技术中存在的问题,提出一种先将表单中线条信息提取处出来,并对缺陷处进行修复,修复完成后再将提取出的文字填入到表单中的基于机器视觉技术的表单图像缺陷矫正及提取方法。
本发明的技术方案:一种基于机器视觉技术的表单图像缺陷矫正及提取方法,该方法包括以下步骤:
S1、将表单放置到识别区域;
S2、通过图像摄取装置将表单上的信息转换成图像信号;
S3、对表单进行校平;
S4、对提取的图像信号中的线条进行分析,并对线条进行二次提取;
S5、将线条提取出来后,再对线条的交点进行提取;
S6、对于不完整的线条在线条的断续处进行延伸连接;
S7、在x同方向的每两个交点均连接成一条直线,在y方向的每两个交点均连接成一条直线;
S8、将通过交点连接出的表单与线条延伸连接出的表单进行重叠对比;
S9、若两个相邻的交点处没有对应的线条,则判断为该出没有线条。
还包括文字提取,将表单上的线条信息提取完毕后,在对表单上的文字信息进行提取。
在去除表单上的线条后,规避了大部分影响图像摄取装置杂点。
文字提取完成后按照表单上的位置顺序进行排列,并与表单上的线条框进行相对应。
两点之间以是否具有线条为判断。
其特征在于,识别区域底板的颜色为绿色。
对于未能识别出的文字信息则显示为(错误),并标红。
与现有技术相比,本发明具有如下有益的技术效果:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南电网有限责任公司信息中心,未经云南电网有限责任公司信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211119734.2/2.html,转载请声明来源钻瓜专利网。