[发明专利]一种基于文本特征和语法规则的PDF全自动标引系统及方法有效
申请号: | 202011339681.6 | 申请日: | 2020-11-25 |
公开(公告)号: | CN112307718B | 公开(公告)日: | 2021-05-11 |
发明(设计)人: | 陈科良;任维政;崔岩松;张晓欢;黄云霞;樊昌熙 | 申请(专利权)人: | 北京邮电大学;北京欢科科技有限公司 |
主分类号: | G06F40/117 | 分类号: | G06F40/117;G06F16/84 |
代理公司: | 北京慕达星云知识产权代理事务所(特殊普通合伙) 11465 | 代理人: | 符继超 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文本 特征 语法 规则 pdf 全自动 标引 系统 方法 | ||
本发明公开了一种基于文本特征和语法规则的PDF全自动标引系统及方法,系统配置解析层、事件分发层、功能实现层。该系统采用了事件驱动的方式,使用了观察者模式的架构,先通过解析PDF生成一个包含基础信息的XML中间文件,然后再使用文本特征以及语法特征分析等技术分析所有的PDF元素以完成全部自动标引过程;PDF全自动标引方法将整个工作流程分为了七个阶段,分别为元素提取阶段、块聚合阶段、行聚合阶段、图片标签识别阶段、标签匹配阶段、标引文件生成阶段和异常处理阶段,能够实现PDF文件的全自动解析、加标签、聚合并最终导出包含所有信息的结构化数据。本发明提高了系统的扩展性、PDF处理效率和内容利用深度,实现PDF的全自动标引。
技术领域
本发明涉及自然语言处理技术领域,更具体的说是涉及一种基于文本特征和语法规则的PDF全自动标引系统及方法。
背景技术
目前,实现PDF标引的主流工具都是依托数字加工人员进行框选标记,程序通过识别人工框选的内容区域以及配置的标签来实现PDF到结构化数据的转化。这种方式主要存在两大问题:(1)过分依赖数字加工人员自身的素质。人工标记的方式实现的PDF标引能够满足从PDF到结构化数据的转化,但是段落的划分、标签的配置等环节都依赖数字加工人员对待标记内容的判断,因此,现有的标引技术会因为数字加工人员自身对PDF内容理解不同而呈现出层次不齐的输出结果。(2)标引的效率过慢。人工标引大多数都是依靠数字加工人员按段或者按行进行元素的属性标记,然后再使用程序导出加工完成的结构化数据,这种方式加工效率较低,进而导致行业数字加工整体产出效率不高。同时,传统的PDF标引都是由数字加工人员人工标记,然后依据标引的结果导出结构化数据,这种方式已经将PDF中内容元素的坐标挖掘出来了,但是对于内容本身的特征还没有深度利用。
因此,如何实现PDF的深度利用内容特征进行全自动解析、标引,以及提高标引效率是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于文本特征和语法规则的PDF全自动标引系统及方法,基于自然语言处理技术,对内容本身的特征以及相互关系进行分析,将人工判断并打标签的过程用软件实现出来,解决PDF标引过程对于人员素质高度依赖的问题,同时可以极大程度的提升标引的效率和质量。
为了实现上述目的,本发明采用如下技术方案:
一种基于文本特征和语法规则的PDF全自动标引系统,包括配置解析层、事件分发层和功能实现层;所述解析配置层、所述事件分发层和所述功能实现层采用事件驱动方式和观察者模式架构实现松耦合连接。观察者模式架构可以实现系统的监督,如果用户对特征匹配库进行了修改则触发系统进行重新匹配。
优选的,所述配置解析层包括规则解析模块、流程解析模块和监听器注册模块;所述规则解析模块存储标准特征库和自定义配置规则构成的特征匹配库,为自动标引提供规则数据;所述流程解析模块将采用不同处理器实现不同阶段的子功能组装起来,配置标注有自动标引过程中每个所述阶段完成的所述所述子功能的流程模板;所述监听器注册模块注册监听事件的监听器,将定义的事件与全自动标引过程中需要监听事件进行一一对应并存储。
优选的,所述事件分发层定义自动标引过程中的若干事件,所述事件包括元素提取事件、块聚合事件、行聚合事件、图片标签识别事件、标引匹配事件、标引文件生成事件和异常事件;所述事件分发层根据所述流程解析模块的所述流程模板中流程执行节点将对应的事件发送给所述监听器;所述监听器接收所述事件并使用对应的功能实现层的执行器实现功能。
优选的,所述功能实现层包括若干与事件对应的执行器,包括页面信息导出器、空格过滤器、字体过滤器、上下标处理器和异常处理器。
一种基于文本特征和语法规则的PDF全自动标引方法,包括以下具体步骤:
步骤1:元素提取,基于文本特征和语法规则分析PDF中待处理元素的特征信息,获得元数据和图片元素,所述元数据为文字元素;如果出现异常情况,跳转至所述步骤4;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学;北京欢科科技有限公司,未经北京邮电大学;北京欢科科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011339681.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种再生混凝土及其制备方法
- 下一篇:一种元宝枫籽油中神经酸的分离纯化工艺