首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种用于PDF文档页面元素有效信息的提取方法及系统在审

申请号：	202210259864.X	申请日：	2022-03-16
公开（公告）号：	CN114611466A	公开（公告）日：	2022-06-10
发明（设计）人：	萧展辉;宋云奎;余芸;王尧;沈宇红;甘杉;甘莹	申请（专利权）人：	南方电网数字电网研究院有限公司
主分类号：	G06F40/151	分类号：	G06F40/151;G06F40/205;G06F40/279;G06F40/211;G06F40/216
代理公司：	北京中睿智恒知识产权代理事务所(普通合伙) 16025	代理人：	邓大为
地址：	510000 广东省广州市黄***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种用于 pdf 文档页面元素有效信息提取方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种用于PDF文档页面元素有效信息的提取方法，其特征在于，包括以下步骤：

构建初始PDF文档信息提取模型，并存储至第一存储区域，所述初始PDF文档信息提取模型用于生成具有时效性的PDF文档信息提取规则模型；

获取文档解析规则集，所述文档解析规则集用于表示解析PDF文档获取PDF文档有效信息的规则集合；

根据所述初始PDF文档信息提取模型和所述文档解析规则集，生成PDF文档信息提取规则模型，并存储至第二存储区域；

根据所述初始PDF文档信息提取模型和所述PDF文档信息提取规则模型，构建用于提取所述PDF文档有效信息的PDF文档信息提取模型；

通过设定第一间隔时间，根据所述初始PDF文档信息提取模型和所述文档解析规则集，更新所述PDF文档信息提取模型。

2.根据权利要求1所述一种用于PDF文档页面元素有效信息的提取方法，其特征在于：

在使用所述PDF文档信息提取模型获取所述PDF文档有效信息的过程中，打开所述PDF文档，按照从上到下、从左到右的顺序解析并排列所述PDF文档的对象，其中，所述对象包括文本框、图片、矩形框、曲线。

3.根据权利要求2所述一种用于PDF文档页面元素有效信息的提取方法，其特征在于：

在获取所述PDF文档的对象的过程后，根据所述PDF文档的对象，搜索所述对象中关键标记的标记位置，并按照所述标记位置将页面划分为多个不同信息区域，提取不同区域的信息并存入变量中。

4.根据权利要求3所述一种用于PDF文档页面元素有效信息的提取方法，其特征在于：

在搜索所述对象中关键标记的位置的过程中，所述关键标记用于表示超过破折号长度的线条；

所述标记位置用于表示用于划分信息区域。

5.根据权利要求4所述一种用于PDF文档页面元素有效信息的提取方法，其特征在于：

在将页面划分为多个不同信息区域的过程中，所述不同信息区域包括页眉的标题、章节号、页码，正文区域，页脚的脚注、页码、注释。

6.根据权利要求5所述一种用于PDF文档页面元素有效信息的提取方法，其特征在于：

在获取所述PDF文档有效信息的过程中，根据所述不同信息区域，判断段落是否开始，如果不是，则从上一页正文中取最后一个标点至末尾拼接到正文的首部。

7.根据权利要求6所述一种用于PDF文档页面元素有效信息的提取方法，其特征在于：

在获取所述PDF文档有效信息的过程中，获取所述正文区域的文本的密度信息，若所述密度信息小于指定百分比时，则使用OCR识别，否则，根据所述文本所在页面区域位置进行提取，其中，提取所述文本的过程包括：页码提取效验、标题提取、正文提取、注释提取。

8.根据权利要求6所述一种用于PDF文档页面元素有效信息的提取方法，其特征在于：

在判断段落是否开始的过程中，根据所述标记位置，确定所述有效信息的坐标范围，排除该范围外的所有对象；

顺序遍历所述坐标范围内的对象，提取文本信息，并根据信息不全偏好，对顶部或底部的文本信息，判断段落是否为开头，其中，判断的依据为：所述顶部的首个字符未顶格，和/或，所述底部的结尾不是标点符号。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南方电网数字电网研究院有限公司，未经南方电网数字电网研究院有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210259864.X/1.html，转载请声明来源钻瓜专利网。

上一篇：激光建图方法、装置、介质及电子设备
下一篇：一种基于分组类型识别的任务卸载公平性传输方法

同类专利

专利分类

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top