[发明专利]环境影响评估报告书表格文字的提取方法及系统有效
申请号: | 201810583398.4 | 申请日: | 2018-06-07 |
公开(公告)号: | CN108805076B | 公开(公告)日: | 2021-01-08 |
发明(设计)人: | 陈建海;储蓉蓉;陈奇;何钦铭;翁海琴;沈钦仙 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/34;G06K9/62;G06N3/04 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 高燕 |
地址: | 310013 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 环境 影响 评估 报告书 表格 文字 提取 方法 系统 | ||
本发明公开了一种环境影响评估报告书表格文字的提取方法,包括以下步骤:(1)从环境影响评估报告书中识别出所有的表格,将识别出的表格以图片格式保存;(2)基于卷积神经网络,从所有表格图片中识别出记录有项目基本信息的目标表格图片;(3)从所述的目标表格图片中提取文字信息。本发明还公开了环境影响评估报告书表格文字的提取系统。本发明的表格文字提取方法将环境影响评估报告中的基本信息和相关项目信息的表格识别出来,并提取其中的文字信息,方便于对环境影响评估报告的管理,并方便于将相关项目和环境联系起来,正确处理环境相关问题,减轻不利环境的影响。
技术领域
本发明涉及计算机视觉OCR领域和深度学习领域,尤其涉及一种基于卷积神经网络的环境影响评估报告书表格文字的提取方法及系统。
背景技术
环境影响评估报告书,简称环评报告,是环保局对于各种项目进行环境影响预见性评估的说明书,其中评估了项目建成之后对环境的影响。环境影响评估报告书中的建设项目环境保护审批登记表记录了项目基本信息,可以从中提取环境影响评估报告的有效信息去辅助解决目前面临的环境问题,或者支持未来项目的决议,其意义重大。但是,每份环评报告几乎都在百页以上,如果用人工去审阅信息,费时、费力且管理不便。
由于环评报告书通常以PDF或者word文档的形式存在,所以目前已知的对于环境影响评估报告的信息抽取是基于自然语言处理的方式,利用规则匹配文本,或者利用统计学习方法获得文字分布规律。但是,前者太依赖于所制定的规则和所应用的文本,没有很好的可移植性;后者虽然有很好的可移植性,但是其准确率受到了限制,而且会提取出无关信息,这是由于目前中文自然语言处理方面还有很大的进步空间,技术并未完全成熟。
目前计算机视觉领域研究成熟,尤其是图像方面取得了很大的进步,在不同场景中应用时的准确率较高。另外,如果把文档类型均转换为图片类型,也将会减少工作负担,不用分别处理不同类型的文档。因此,可以提取环境影响评估报告中记录信息的表格图片,并识别表格图像中的文字,从而实现信息的提取,这属于计算机视觉的分支OCR领域。
OCR(Optical Character Recognition,光学字符识别)利用光学技术以及计算机技术将图片中的文字读取出来,并将其转换成一种计算机可以接受、人又可以理解的格式。OCR的概念诞生于1929年,随后在邮政编码识别领域中发挥着良好作用,发展到目前为止,OCR的识别技术已然达到了一个较高的水平,被广泛用在新闻、出版、印刷、图书馆和办公自动化等各个行业中,帮助人们快速便捷工作。常见的OCR表格文字识别的流程,包括图文输入、预处理、行列分割和文字识别四个部分。
现有的实现OCR的算法包括支持向量机(SVM)、神经网络等,但是SVM算法对在训练样本规模较大时难以实施,且在解决多分类的问题存在一定困难;传统神经网络结构层次较少,当用多层神经网络训练的时候会出现欠拟合的现象。目前在图像方面效果较好的当属卷积神经网络,其在传统结构上引入了在图像处理中的数据,包括滤波器组和多分辨率分析等,所以取得了令人瞩目的结果。
卷积神经网络在90年代提出,最早用于手写数字识别,并直到现在一直保持着在该问题的首要地位。近年来,随着深度学习的兴起,卷积神经网络被广泛应用于很多场景中,包括语音识别、通用物体识别、人脸识别、自然语言处理、运动分析,甚至在脑电波的分析方面都有突破,这源于其在特征提取和模型拟合上都超过浅层模型,其局部连接、权值共享及池化这些特性和操作,可以减少训练参数的数目,降低网络的复杂度,具有强鲁棒性和容错能力。
发明内容
本发明提供了一种环境影响评估报告书表格文字的提取方法,将环境影响评估报告中带有项目基本信息的目标表格识别出来,并从中提取文字信息,便于相关工作人员管理。
本发明提供了如下技术方案:
一种环境影响评估报告书表格文字的提取方法,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810583398.4/2.html,转载请声明来源钻瓜专利网。