[发明专利]一种PDF文件的对象识别处理方法及装置有效
申请号: | 201910549537.6 | 申请日: | 2019-06-24 |
公开(公告)号: | CN110363102B | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 罗彤;周占文;曹德亮;赵红军 | 申请(专利权)人: | 北京融汇金信信息技术有限公司 |
主分类号: | G06V30/40 | 分类号: | G06V30/40;G06V30/413;G06V30/10 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 苗晓静 |
地址: | 100036 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 pdf 文件 对象 识别 处理 方法 装置 | ||
1.一种PDF文件的对象识别处理方法,其特征在于,包括:
将便携式文档格式PDF文件的当前页面转换为图像格式的待识别图像,对所述待识别图像依次进行灰度转换处理、二值化处理和闭合处理,得到识别背景后的背景图像;
根据水平维度和垂直维度对所述背景图像中的目标区域分别进行识别,若识别到格线状对象,则确定所述格线状对象为表格;其中,所述目标区域为所述背景图像中去除背景之后的区域,根据第二预设规则识别所述背景图像中的图片,并根据识别到的表格和图片对所述背景图像进行自动化标记,得到标记图像;
将所述标记图像输入训练好的深度学习模型中,通过所述深度学习模型基于所述标记图像的像素对所述标记图像进行分类,得到所述深度学习模型输出的带有对象识别结果的识别图像;其中,所述对象识别结果包括背景、图片、表格和文字;所述深度学习模型是根据多个待识别图像和对应的识别结果预先训练好的模型;
对所述识别图像中顶部和底部预设区域内识别到的文字进行词频统计,将词频大于预设词频的文字作为页首页尾候选文字,将所述页首页尾候选文字与所述识别图像中部区域的文字进行相似性计算,将相似性大于相似性预设值的文字作为页首页尾文字,并将所述页首页尾文字从所述识别图像识别到的文字中进行删除,得到更新后的识别图像;
利用水平方向的关联性进行短文字块聚类,对所述更新后的识别图像进行无格线表格检测。
2.根据权利要求1所述的PDF文件的对象识别处理方法,其特征在于,所述根据第二预设规则识别所述背景图像中的图片,具体包括:
若判断所述目标区域的若干子区域之间相连,则分别获取若干相连的子区域中横坐标最大、横坐标最小、纵坐标最大和纵坐标最小的位置,根据所述横坐标最大、横坐标最小、纵坐标最大和纵坐标最小的位置确定包围所述若干相连的子区域的最小区域,并确定所述最小区域对应的对象为图片。
3.一种PDF文件的对象识别处理装置,其特征在于,包括:
背景识别模块,用于将便携式文档格式PDF文件的当前页面转换为图像格式的待识别图像,对所述待识别图像依次进行灰度转换处理、二值化处理和闭合处理,得到识别背景后的背景图像;
图像标记模块,用于根据水平维度和垂直维度对所述背景图像中的目标区域分别进行识别,若识别到格线状对象,则确定所述格线状对象为表格;其中,所述目标区域为所述背景图像中去除背景之后的区域,根据第二预设规则识别所述背景图像中的图片,并根据识别到的表格和图片对所述背景图像进行自动化标记,得到标记图像;
图像识别模块,用于将所述标记图像输入训练好的深度学习模型中,通过所述深度学习模型基于所述标记图像的像素对所述标记图像进行分类,得到所述深度学习模型输出的带有对象识别结果的识别图像;其中,所述对象识别结果包括背景、图片、表格和文字;所述深度学习模型是根据多个待识别图像和对应的识别结果预先训练好的模型;
文字删除模块,用于对所述识别图像中顶部和底部预设区域内识别到的文字进行词频统计,将词频大于预设词频的文字作为页首页尾候选文字,将所述页首页尾候选文字与所述识别图像中部区域的文字进行相似性计算,将相似性大于相似性预设值的文字作为页首页尾文字,并将所述页首页尾文字从所述识别图像识别到的文字中进行删除,得到更新后的识别图像;
检测模块,用于利用水平方向的关联性进行短文字块聚类,对所述更新后的识别图像进行无格线表格检测。
4.根据权利要求3所述的PDF文件的对象识别处理装置,其特征在于,所述图像标记模块具体用于:
若判断所述目标区域的若干子区域之间相连,则分别获取若干相连的子区域中横坐标最大、横坐标最小、纵坐标最大和纵坐标最小的位置,根据所述横坐标最大、横坐标最小、纵坐标最大和纵坐标最小的位置确定包围所述若干相连的子区域的最小区域,并确定所述最小区域对应的对象为图片。
5.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至2任一所述的PDF文件的对象识别处理方法。
6.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至2任一所述的PDF文件的对象识别处理方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京融汇金信信息技术有限公司,未经北京融汇金信信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910549537.6/1.html,转载请声明来源钻瓜专利网。