[发明专利]一种PDF文档的处理方法及装置有效

申请号：	201911051820.2	申请日：	2019-10-31
公开（公告）号：	CN110837788B	公开（公告）日：	2022-10-28
发明（设计）人：	吕凯	申请（专利权）人：	北京深度制耀科技有限公司
主分类号：	G06V30/416	分类号：	G06V30/416;G06V30/148
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	杨华
地址：	101102 北京市北京经济技术***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种 pdf 文档处理方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种PDF文档的处理方法及装置，依据预设的第一类对象的特征，识别PDF文档中的第一类对象，第一类对象包括各级标题、页眉和页脚中的至少一项，特征包括内容和格式。识别PDF文档中的第二类对象，第二类对象为预先规定具有超链接的字符。依据预设的目录的特征，识别PDF文档中的目录，目录的特征包括目录的关键字和格式。可见，相较于人工检查PDF文档的方式，本申请能够自动识别PDF文档中的各级标题、页眉、页脚、具有超链接的字符、以及目录等待检内容，并针对待检内容中错误的待检项进行自动标识，从而辅助人工进行核查，由此显著提高PDF文档的处理效率，减少人力成本。

技术领域

本申请涉及信息自动化技术领域，尤其涉及一种PDF文档的处理方法及装置。

背景技术

在医药研发以及上市后产品监管过程中，药企需向监管部门递交药品电子通用技术文件，药品电子通用技术文件为PDF文档。由于药品电子通用技术文件必须依照监管部门制定的界面和特定格式进行撰写，因此，需要对电子通用技术文件撰写完毕后的PDF文档进行检查。

目前，大多数是采用人工检查的方式，对药品电子通用技术文件的PDF文档进行检查。然而，所需检查的PDF文档数量庞大，依靠人工检查全部的PDF文档需花费较大的人力和时间，效率尤为低下，并且在检查修正文档的过程中，人工检查的方式极为容易遗漏文档中的错误。

发明内容

本申请提供了一种PDF文档的处理方法及装置，目的在于解决人工检查修正PDF文档效率低下的问题。

为了实现上述目的，本申请提供了以下技术方案：

一种PDF文档的处理方法，包括：

依据预设的第一类对象的特征，识别PDF文档中的第一类对象，所述第一类对象包括各级标题、页眉和页脚中的至少一项，所述特征包括内容和格式；

识别所述PDF文档中的第二类对象，所述第二类对象为预先规定具有超链接的字符；

依据预设的目录的特征，识别所述PDF文档中的目录，所述目录的特征包括目录的关键字和格式。