[发明专利]对PDF格式的继电保护定值单进行处理的方法和系统在审
申请号: | 202011418226.5 | 申请日: | 2020-12-07 |
公开(公告)号: | CN112528832A | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | 车克杉;刘可;杨嘉;赵金朝;保积秀;王宁霞;王少飞;杨文丽;陈卉;丛贵斌;罗敏;闫涵;张真;张婧;王学斌;傅国斌;甘嘉田;丁玉杰;张杰;宋锐;赵世昌;王轩;马勇飞;杨军;卢国强;肖明;赵东宁;杨凯璇 | 申请(专利权)人: | 国网青海省电力公司电力科学研究院 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/34;G06F16/25;G06F16/22 |
代理公司: | 深圳瑞天谨诚知识产权代理有限公司 44340 | 代理人: | 温青玲 |
地址: | 810000 青*** | 国省代码: | 青海;63 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | pdf 格式 保护 定值单 进行 处理 方法 系统 | ||
1.一种对PDF格式的继电保护定值单进行处理的方法,其特征在于,所述方法包括:
S101、获取对象形式包含图像的PDF格式的继电保护定值单;
S102、通过OCR对所述对象形式包含图像的PDF格式的继电保护定值单进行图形文字识别,识别出继电保护定值单中的表格及表格内文本内容;
S103、基于继电保护定值单表格模型库的定义对识别出的表格进行分析,结合预设的继电保护定值单的标题行关键字,找到对应的表格定义,根据所述表格内文本内容,并结合表格外文本及坐标,获得继电保护定值单的表格关键信息;
S104、根据不同的继电保护定值单,将所述表格关键信息进行结构化的固化存储到数据库,并提供数据访问接口。
2.如权利要求1所述的方法,其特征在于,S101具体为:
获取对象形式包含图像的PDF格式的继电保护定值单,对所述继电保护定值单进行扫描得到图像文件。
3.如权利要求2所述的方法,其特征在于,S102具体包括:
S1021、通过OCR对扫描得到图像文件进行识别,通过二值化处理,获得每页图像的表格线;
S1022、分析表格线,将纵向或横向不连续的表格线视为两个独立的表格,将图像拆分,获得多个表格区域及表格外文本区域;
S1023、对于表格区域,通过表格线交点,将每个表格划分为多个单元格的图片,对每个单元格的图片进行文本定位及文本识别;对于表格外文本区域进行文本定位和文本识别操作。
4.如权利要求3所述的方法,其特征在于,S1023之后,所述方法还包括:
根据继电保护定值单的表格特征,综合表格属性判断表格是否跨页,对跨页表格进行合并处理。
5.如权利要求4所述的方法,其特征在于,所述根据继电保护定值单的表格特征,综合表格属性判断表格是否跨页具体包括:
基于明显特征进行快速过滤,排除不可能是跨页的表格,然后根据前后两页表格的特征属性,判断是否跨页表格。
6.如权利要求1所述的方法,其特征在于,所述表格关键信息包括定值项所属分组、定值项名称和定值项整定值;
S103具体为:
根据识别出的每个表格中单元格大小及坐标,在继电保护定值单表格模型库中进行匹配,结合预设的继电保护定值单的标题行关键字,找到对应的表格定义,根据所述表格内文本内容,并结合表格外文本及坐标,获得继电保护定值单的表格关键信息。
7.如权利要求1所述的方法,其特征在于,S104之后,所述方法还包括:
通过调用数据访问接口将继电保护定值单的内容以JSON数据格式输出。
8.一种对PDF格式的继电保护定值单进行处理的系统,其特征在于,所述系统包括:
获取模块,用于获取对象形式包含图像的PDF格式的继电保护定值单;
识别模块,用于通过OCR对所述对象形式包含图像的PDF格式的继电保护定值单进行图形文字识别,识别出继电保护定值单中的表格及表格内文本内容;
分析模块,用于基于继电保护定值单表格模型库的定义对识别出的表格进行分析,结合预设的继电保护定值单的标题行关键字,找到对应的表格定义,根据所述表格内文本内容,并结合表格外文本及坐标,获得继电保护定值单的表格关键信息;
存储模块,用于根据不同的继电保护定值单,将所述表格关键信息进行结构化的固化存储到数据库,并提供数据访问接口。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的对PDF格式的继电保护定值单进行处理的方法的步骤。
10.一种计算机设备,包括:
一个或多个处理器;
存储器;以及
一个或多个计算机程序,所述处理器和所述存储器通过总线连接,其中所述一个或多个计算机程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的对PDF格式的继电保护定值单进行处理的方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网青海省电力公司电力科学研究院,未经国网青海省电力公司电力科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011418226.5/1.html,转载请声明来源钻瓜专利网。