[发明专利]PDF扫描件内容识别方法及装置在审

专利信息
申请号: 202310268433.4 申请日: 2023-03-20
公开(公告)号: CN116311305A 公开(公告)日: 2023-06-23
发明(设计)人: 卓可秋;王杰;张全;郑天鹏 申请(专利权)人: 南京中新赛克科技有限责任公司
主分类号: G06V30/412 分类号: G06V30/412;G06V30/146;G06V30/18;G06V30/262;G06V10/82;G06N3/045
代理公司: 南京苏高专利商标事务所(普通合伙) 32204 代理人: 冯艳芬
地址: 210012 江苏省南京*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: pdf 扫描 内容 识别 方法 装置
【权利要求书】:

1.一种PDF扫描件内容识别方法,其特征在于包括如下步骤:

(1)将PDF扫描件转换为图片;

(2)利用横向像素点之和的方差变化情况,进行图片的方向纠偏;

(3)基于预设第一模型进行版面分析,识别到图片中的印章、表格、目录标题和正文;

(4)采用预设第二模型将图片中识别到的印章去除;

(5)通过表格外轮廓以及内部单元轮廓的查找并定位到单元格位置,提取出表格中文本并填充到对应单元格,完成表格内容识别;

(6)采用预设第三模型将识别的目录标题和正文生成层级目录结构,完成内容识别。

2.根据权利要求1所述的PDF扫描件内容识别方法,其特征在于:步骤(2)具体包括:

(2.1)将图片处理为二值图;

(2.2)判断二值图的宽度是否小于高度,若否,则将二值图旋转90度,并执行(2.3),若是则直接执行(2.3);

(2.3)采用OCR判断是否可识别出字符,若否则旋转180度,并执行(2.4),若是则直接执行(2.4);

(2.4)采用小于预设阈值的旋转角度旋转二值图;

(2.5)判断通过二值图像素点是否可检测到横向直线;若是,则直接将当前二值图作为纠偏后的图片输出;否则执行(2.6);

(2.6)计算图片从上到下每一条横向像素点个数之和,并求出横向像素点方差;

(2.7)判断横向像素点方差是否相较上次增大,若是,则将旋转角度按照预设步长增大,并返回执行(2.4),若否,则执行(2.8);

(2.8)累计横向像素点方差无增大的次数,判断次数是否达到阈值,若是,执行(2.9),若否,则将旋转角度按照预设步长增大,并返回执行(2.4);

(2.9)将方差最大的二值图作为最终纠偏图片输出。

3.根据权利要求1所述的PDF扫描件内容识别方法,其特征在于:步骤(3)中所述第一预设模型具体为深度卷积神经网络模型,通过训练得到,训练时采用的样本为:若干原始PDF扫描件,和在原始PDF扫描件通过人工标注印章、表格、目录标题和正文后的标注PDF扫描件。

4.根据权利要求1所述的PDF扫描件内容识别方法,其特征在于:步骤(4)中所述第二预设模型具体为编码器-解码器架构,通过训练得到,训练时采用的样本为:若干含印章的图片和对应的不含印章的图片。

5.根据权利要求1所述的PDF扫描件内容识别方法,其特征在于:步骤(5)具体包括:

(5.1)将版面分析识别得到的图片中表格的区域进行截取;

(5.2)将截取的表格区域图片进行二值化处理与像素膨胀处理;

(5.3)查找步骤(5.2)处理后图片的最大轮廓区域,并删除该最大轮廓区域外的像素点;

(5.4)获得步骤(5.3)处理后图片中连通的轮廓区域,根据这些连通轮廓,判断出含子轮廓最多的顶层轮廓以及相应的子轮廓;

(5.5)根据子轮廓的位置以及相应位置关系判断出该子轮廓所在的单元格位置;

(5.6)利用OCR提取子轮廓内的文本内容,并将文本内容填充到对应的单元格位置,完成表格内容识别。

6.根据权利要求1所述的PDF扫描件内容识别方法,其特征在于:步骤(6)所述第三预设模型具体为深度学习模型,通过训练得到,通过序列标注任务将将识别的目录标题和正文生成包含文档标题、分级标题、正文要素的层级目录结构。

7.根据权利要求6所述的PDF扫描件内容识别方法,其特征在于:所述深度学习模型具体为CNN+BILSTM+CRF模型,该模型从每一条句子中同时提取字符表征和词嵌入表征,最终生成层级目录结构的要素,所述字符特征通过字符表征提取模型获取,所述词嵌入特征通过预处理和实时生成得到。

8.根据权利要求7所述的PDF扫描件内容识别方法,其特征在于:所述字符表征提取模型具体为包括若干卷积层和一层最大池化层的CNN网络。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京中新赛克科技有限责任公司,未经南京中新赛克科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310268433.4/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top