[发明专利]PDF扫描件内容识别方法及装置在审
申请号: | 202310268433.4 | 申请日: | 2023-03-20 |
公开(公告)号: | CN116311305A | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 卓可秋;王杰;张全;郑天鹏 | 申请(专利权)人: | 南京中新赛克科技有限责任公司 |
主分类号: | G06V30/412 | 分类号: | G06V30/412;G06V30/146;G06V30/18;G06V30/262;G06V10/82;G06N3/045 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 冯艳芬 |
地址: | 210012 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | pdf 扫描 内容 识别 方法 装置 | ||
1.一种PDF扫描件内容识别方法,其特征在于包括如下步骤:
(1)将PDF扫描件转换为图片;
(2)利用横向像素点之和的方差变化情况,进行图片的方向纠偏;
(3)基于预设第一模型进行版面分析,识别到图片中的印章、表格、目录标题和正文;
(4)采用预设第二模型将图片中识别到的印章去除;
(5)通过表格外轮廓以及内部单元轮廓的查找并定位到单元格位置,提取出表格中文本并填充到对应单元格,完成表格内容识别;
(6)采用预设第三模型将识别的目录标题和正文生成层级目录结构,完成内容识别。
2.根据权利要求1所述的PDF扫描件内容识别方法,其特征在于:步骤(2)具体包括:
(2.1)将图片处理为二值图;
(2.2)判断二值图的宽度是否小于高度,若否,则将二值图旋转90度,并执行(2.3),若是则直接执行(2.3);
(2.3)采用OCR判断是否可识别出字符,若否则旋转180度,并执行(2.4),若是则直接执行(2.4);
(2.4)采用小于预设阈值的旋转角度旋转二值图;
(2.5)判断通过二值图像素点是否可检测到横向直线;若是,则直接将当前二值图作为纠偏后的图片输出;否则执行(2.6);
(2.6)计算图片从上到下每一条横向像素点个数之和,并求出横向像素点方差;
(2.7)判断横向像素点方差是否相较上次增大,若是,则将旋转角度按照预设步长增大,并返回执行(2.4),若否,则执行(2.8);
(2.8)累计横向像素点方差无增大的次数,判断次数是否达到阈值,若是,执行(2.9),若否,则将旋转角度按照预设步长增大,并返回执行(2.4);
(2.9)将方差最大的二值图作为最终纠偏图片输出。
3.根据权利要求1所述的PDF扫描件内容识别方法,其特征在于:步骤(3)中所述第一预设模型具体为深度卷积神经网络模型,通过训练得到,训练时采用的样本为:若干原始PDF扫描件,和在原始PDF扫描件通过人工标注印章、表格、目录标题和正文后的标注PDF扫描件。
4.根据权利要求1所述的PDF扫描件内容识别方法,其特征在于:步骤(4)中所述第二预设模型具体为编码器-解码器架构,通过训练得到,训练时采用的样本为:若干含印章的图片和对应的不含印章的图片。
5.根据权利要求1所述的PDF扫描件内容识别方法,其特征在于:步骤(5)具体包括:
(5.1)将版面分析识别得到的图片中表格的区域进行截取;
(5.2)将截取的表格区域图片进行二值化处理与像素膨胀处理;
(5.3)查找步骤(5.2)处理后图片的最大轮廓区域,并删除该最大轮廓区域外的像素点;
(5.4)获得步骤(5.3)处理后图片中连通的轮廓区域,根据这些连通轮廓,判断出含子轮廓最多的顶层轮廓以及相应的子轮廓;
(5.5)根据子轮廓的位置以及相应位置关系判断出该子轮廓所在的单元格位置;
(5.6)利用OCR提取子轮廓内的文本内容,并将文本内容填充到对应的单元格位置,完成表格内容识别。
6.根据权利要求1所述的PDF扫描件内容识别方法,其特征在于:步骤(6)所述第三预设模型具体为深度学习模型,通过训练得到,通过序列标注任务将将识别的目录标题和正文生成包含文档标题、分级标题、正文要素的层级目录结构。
7.根据权利要求6所述的PDF扫描件内容识别方法,其特征在于:所述深度学习模型具体为CNN+BILSTM+CRF模型,该模型从每一条句子中同时提取字符表征和词嵌入表征,最终生成层级目录结构的要素,所述字符特征通过字符表征提取模型获取,所述词嵌入特征通过预处理和实时生成得到。
8.根据权利要求7所述的PDF扫描件内容识别方法,其特征在于:所述字符表征提取模型具体为包括若干卷积层和一层最大池化层的CNN网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京中新赛克科技有限责任公司,未经南京中新赛克科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310268433.4/1.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法