[发明专利]一种PDF文档的处理方法及装置有效
申请号: | 201911051820.2 | 申请日: | 2019-10-31 |
公开(公告)号: | CN110837788B | 公开(公告)日: | 2022-10-28 |
发明(设计)人: | 吕凯 | 申请(专利权)人: | 北京深度制耀科技有限公司 |
主分类号: | G06V30/416 | 分类号: | G06V30/416;G06V30/148 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 杨华 |
地址: | 101102 北京市北京经济技术*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 pdf 文档 处理 方法 装置 | ||
本申请公开了一种PDF文档的处理方法及装置,依据预设的第一类对象的特征,识别PDF文档中的第一类对象,第一类对象包括各级标题、页眉和页脚中的至少一项,特征包括内容和格式。识别PDF文档中的第二类对象,第二类对象为预先规定具有超链接的字符。依据预设的目录的特征,识别PDF文档中的目录,目录的特征包括目录的关键字和格式。可见,相较于人工检查PDF文档的方式,本申请能够自动识别PDF文档中的各级标题、页眉、页脚、具有超链接的字符、以及目录等待检内容,并针对待检内容中错误的待检项进行自动标识,从而辅助人工进行核查,由此显著提高PDF文档的处理效率,减少人力成本。
技术领域
本申请涉及信息自动化技术领域,尤其涉及一种PDF文档的处理方法及装置。
背景技术
在医药研发以及上市后产品监管过程中,药企需向监管部门递交药品电子通用技术文件,药品电子通用技术文件为PDF文档。由于药品电子通用技术文件必须依照监管部门制定的界面和特定格式进行撰写,因此,需要对电子通用技术文件撰写完毕后的PDF文档进行检查。
目前,大多数是采用人工检查的方式,对药品电子通用技术文件的PDF文档进行检查。然而,所需检查的PDF文档数量庞大,依靠人工检查全部的PDF文档需花费较大的人力和时间,效率尤为低下,并且在检查修正文档的过程中,人工检查的方式极为容易遗漏文档中的错误。
发明内容
本申请提供了一种PDF文档的处理方法及装置,目的在于解决人工检查修正PDF文档效率低下的问题。
为了实现上述目的,本申请提供了以下技术方案:
一种PDF文档的处理方法,包括:
依据预设的第一类对象的特征,识别PDF文档中的第一类对象,所述第一类对象包括各级标题、页眉和页脚中的至少一项,所述特征包括内容和格式;
识别所述PDF文档中的第二类对象,所述第二类对象为预先规定具有超链接的字符;
依据预设的目录的特征,识别所述PDF文档中的目录,所述目录的特征包括目录的关键字和格式。
可选的,所述依据预设的第一类对象的特征,识别PDF文档中的第一类对象,所述第一类对象包括各级标题、页眉和页脚中的至少一项,所述特征包括内容和格式,包括:
使用第一模型,得到所述各级标题的识别结果,所述第一模型使用所述各级标题的预设的关键字以及格式训练得到;
使用第二模型,得到所述页眉和页脚的识别结果,所述第二模型使用所述页眉和页脚的预设格式训练得到。
可选的,在识别所述PDF文档中的所述各级标题之后,还包括:
在所述各级标题的字体格式不满足预设条件的情况下,调整所述字体格式,以满足所述预设条件。
可选的,所述识别所述PDF文档中的第二类对象,包括:
使用OCR识别所述PDF文档,得到文档;
使用自然语言理解算法,基于语义识别所述文档中的预设字符;
将所述文档输入第三模型,得到所述第三模型依据所述字符的上下文信息确定的所述字符的含义;
依据所述预设字符的含义,确定所述预设字符为所述预先规定具有超链接的字符。
可选的,在所述确定所述字符为所述预先规定具有超链接的字符之后,还包括:
依据所述PDF文档的超链接属性信息,核查所述预设字符是否存在对应的超链接;
在所述预设字符不存在对应的超链接的情况下,发出所述预设字符缺失超链接的提示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京深度制耀科技有限公司,未经北京深度制耀科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911051820.2/2.html,转载请声明来源钻瓜专利网。