[发明专利]环境影响评估报告书表格文字的提取方法及系统有效
申请号: | 201810583398.4 | 申请日: | 2018-06-07 |
公开(公告)号: | CN108805076B | 公开(公告)日: | 2021-01-08 |
发明(设计)人: | 陈建海;储蓉蓉;陈奇;何钦铭;翁海琴;沈钦仙 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/34;G06K9/62;G06N3/04 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 高燕 |
地址: | 310013 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 环境 影响 评估 报告书 表格 文字 提取 方法 系统 | ||
1.一种环境影响评估报告书表格文字的提取方法,其特征在于,包括以下步骤:
(1)从环境影响评估报告书中识别出所有的表格,将识别出的表格以图片格式保存;从环境影响评估报告书中识别出所有的表格,包括:
(1-1)采用基于LSD的直线检测分割算法,识别、分割环境影响评估报告书中的直线,得到若干直线段,并记录各个直线段的端点坐标;
(1-2)对直线段进行过滤,去除干扰直线段,包括:预设表格直线的长度阈值,若某直线段长度小于预设的长度阈值,则去除该直线段;
(1-3)求取过滤后剩余直线段的交点,方法为:若直线段A的端点a与直线段B的端点b之间的距离小于预设阈值,则认为直线段A与直线段B之间存在交点;求取端点a与端点b的坐标平均值,并将坐标平均值作为直线段A与直线段B的交点;
(1-4)根据所有过滤后剩余直线段之间的交点坐标,确定表格区域位置;
(2)基于卷积神经网络,从所有表格图片中识别出记录有项目基本信息的目标表格图片;包括:
(2-1)从环境影响评估报告书中提取表格图片,并将记录有项目基本信息的表格图片作为目标表格图片,标注为1;否则作为非目标表格图片,标注为0,构建训练集;
(2-2)构建基于卷积神经网络的表格图片分类器;
(2-3)利用训练集训练表格图片分类器,直至表格图片分类器收敛;
(2-4)通过训练好的表格图片分类器从步骤(1)获得的表格图片中识别目标表格图片;
(3)从所述的目标表格图片中提取文字信息,包括:
(3-1)识别目标表格图片中的表格单元格,并记录表格单元格的坐标位置,包括:
(3-1a)采用基于LSD的直线检测分割算法,识别、分割目标表格图片中的直线,得到若干直线段,并记录各个直线段的端点坐标;
(3-1b)求取直线段的交点,方法为:若直线段A的端点a与直线段B的端点b之间的距离小于预设阈值,则认为直线段A与直线段B之间存在交点;求取端点a与端点b的坐标平均值,并将坐标平均值作为直线段A与直线段B的交点;
(3-1c)若直线段A与直线段B相交于一点且直线段A与直线段B垂直,则根据直线段A与直线段B,确定包含直线段A与直线段B的表格单元格的坐标位置;
(3-2)对表格单元格中的图像进行字符切割,得到包含单个字符的字符图片,包括:
(3-2a)对表格单元格中的图像进行水平方向上的投影并进行切割,得到若干字符行;
(3-2b)对所述字符行进行垂直方向上的投影并进行切割,得到包含单个字符的字符图片;
(3-3)构建并训练基于卷积神经网络的文字分类器,通过文字分类器对所述字符图片进行识别,输出相应文字;构建并训练字体分类器,包括:
(3-3a)收集相应字体的文字图片并进行标注,构建文字分类训练集;
(3-3b)构建基于卷积神经网络的文字分类器;
(3-3c)采用文字分类训练集训练文字分类器,直至文字分类器收敛。
2.根据权利要求1所述的环境影响评估报告书表格文字的提取方法,其特征在于,步骤(3-3)中,所述的文字分类器为长短期记忆网络。
3.一种环境影响评估报告书表格文字的提取系统,其特征在于,包括:
表格识别模块,从环境影响评估报告书中识别出所有的表格,将识别出的表格以图片格式保存;
表格分类模块,基于卷积神经网络从所有表格图片中识别出记录有项目基本信息的目标表格图片;
文字提取模块,从所述的目标表格图片中提取文字信息;
所述的提取系统根据权利要求1或2所述的提取方法从环境影响评估报告书中提取表格文字。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810583398.4/1.html,转载请声明来源钻瓜专利网。