[发明专利]一种基于文本特征和语法规则的PDF全自动标引系统及方法有效
申请号: | 202011339681.6 | 申请日: | 2020-11-25 |
公开(公告)号: | CN112307718B | 公开(公告)日: | 2021-05-11 |
发明(设计)人: | 陈科良;任维政;崔岩松;张晓欢;黄云霞;樊昌熙 | 申请(专利权)人: | 北京邮电大学;北京欢科科技有限公司 |
主分类号: | G06F40/117 | 分类号: | G06F40/117;G06F16/84 |
代理公司: | 北京慕达星云知识产权代理事务所(特殊普通合伙) 11465 | 代理人: | 符继超 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于文本特征和语法规则的PDF全自动标引系统及方法,系统配置解析层、事件分发层、功能实现层。该系统采用了事件驱动的方式,使用了观察者模式的架构,先通过解析PDF生成一个包含基础信息的XML中间文件,然后再使用文本特征以及语法特征分析等技术分析所有的PDF元素以完成全部自动标引过程;PDF全自动标引方法将整个工作流程分为了七个阶段,分别为元素提取阶段、块聚合阶段、行聚合阶段、图片标签识别阶段、标签匹配阶段、标引文件生成阶段和异常处理阶段,能够实现PDF文件的全自动解析、加标签、聚合并最终导出包含所有信息的结构化数据。本发明提高了系统的扩展性、PDF处理效率和内容利用深度,实现PDF的全自动标引。 | ||
搜索关键词: | 一种 基于 文本 特征 语法 规则 pdf 全自动 标引 系统 方法 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学;北京欢科科技有限公司,未经北京邮电大学;北京欢科科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202011339681.6/,转载请声明来源钻瓜专利网。
- 上一篇:一种再生混凝土及其制备方法
- 下一篇:一种元宝枫籽油中神经酸的分离纯化工艺