[发明专利]一种PDF公告文档的处理方法及系统在审
申请号: | 202111535580.0 | 申请日: | 2021-12-15 |
公开(公告)号: | CN114170614A | 公开(公告)日: | 2022-03-11 |
发明(设计)人: | 张胜博;万德洪;孙科;罗康洋;束金龙;谭可人;王佳妮;雷鑫林;刘宇;耿然;铁清木;张炜祺;张林 | 申请(专利权)人: | 上海金仕达软件科技有限公司 |
主分类号: | G06V30/416 | 分类号: | G06V30/416;G06V30/413;G06F16/178 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张珊珊 |
地址: | 201203 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 pdf 公告 文档 处理 方法 系统 | ||
1.一种公告文档的处理方法,其特征在于,包括:
获取PDF公告文档;
基于所述PDF公告文档的格式和内容,判断所述PDF公告文档为标准化PDF文档或非标准化PDF文档;
当所述PDF公告文档为所述标准化PDF文档时,将所述PDF公告文档由PDF格式转换为一个临时的docx格式的Word公告文档,所述Word公告文档包括正文行对象和表格对象;
对所述PDF公告文档和所述Word公告文档,采用预设坐标算法进行公告域信息分割,并在分割完成后得到所述PDF公告文档对应的格式化的公告纯文本,其中,所述公告域信息至少包括:公告头部信息、公告标题、公告说明和公告正文。
2.根据权利要求1所述的处理方法,其特征在于,所述当所述PDF公告文档为所述标准化PDF文档时,将所述PDF公告文档由PDF格式转换为一个临时的docx格式的Word文档,包括:
当所述PDF公告文档为所述标准化PDF文档时,采用开源模块pdf2docx对所述PDF公告文档中的非表格内容进行提取得到正文行对象,以及对所述PDF公告文档中的表格内容进行提取得到表格对象;
基于所述正文行对象和所述表格对象得到所述Word文档。
3.根据权利要求1所述的处理方法,其特征在于,对所述PDF公告文档和所述Word公告文档,采用预设坐标算法进行公告域信息分割,并在分割完成后得到所述PDF公告文档对应的格式化的公告纯文本,包括:
对所述PDF公告文档进行扫描,逐页逐行提取所述PDF公告文档的文本块元素,所述文本块元素包括:文本字符、文本块矩形的左上角坐标值和右下角坐标值;
将逐页逐行提取的所述文本块元素按照提取顺序存放至预先建立的有序字典中;
对所述Word公告文档中的所述正文行对象和所述表格对象逐一进行扫描,得到所述Word公告文档中的文档元素,并基于所述文档元素和所述有序字典得到格式化的所述公告纯文本,其中,所述文档元素包括:所述正文行对象对应的文本字符串和坐标值列表,以及所述表格对象对应的单元格内的字符串。
4.根据权利要求3所述的处理方法,其特征在于,对所述Word公告文档中的所述正文行对象和所述表格对象逐一进行扫描,得到所述Word公告文档中的文档元素,并基于所述文档元素和所述有序字典得到格式化的所述公告纯文本,包括:
对所述Word公告文档进行扫描,从所述正文行对象中按序获取一行文本字符串,并从所述有序字典中获取以所述文本字符串为键的坐标值列表,形成一个由文本字符串和所述坐标值列表组成的二元组;
将所述二元组在预设规则库中进行匹配,并利用匹配得到的目标规则对所述二元组进行格式化处理,得到初始公告纯文本,其中,所述预设规则库包含两类规则,分别为坐标相关规则和坐标无关规则;
对所述Word公告文档进行扫描,从所述表格对象中依次获取每个表格子对象;
逐行逐单元遍历所述表格子对象,提取并矫正每个所述表格子对象中单元格内的字符串,得到目标单元格;
将各个所述目标单元格中的字符串以一个制表符进行分割,共同组成所述表格子对象的一行内容,并添加至所述初始公告纯文本中;
当对所述表格对象中的所有的所述表格子对象对应的一行内容均添加至所述初始公告纯文本中后,得到最终的格式化的所述公告纯文本。
5.根据权利要求4所述的处理方法,其特征在于,将所述二元组在预设规则库中进行匹配,并利用匹配得到的目标规则对所述二元组进行格式化处理,得到初始公告纯文本,包括:
将所述坐标值列表与所述预设规则库中的所述坐标相关规则进行匹配,并利用匹配得到的目标坐标相关规则对所述坐标值列表进行格式化处理,得到目标坐标值列表;
将所述文本字符串与所述预设规则库中的所述坐标无关规则进行匹配,并利用匹配得到的目标坐标无关规则对所述文本字符串进行格式化处理,得到目标文本字符串;
基于所有的所述目标坐标值列表和所述目标文本字符串得到所述初始公共纯文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海金仕达软件科技有限公司,未经上海金仕达软件科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111535580.0/1.html,转载请声明来源钻瓜专利网。