[发明专利]一种基于结构识别的Web表格信息抽取方法在审
申请号: | 201510287215.0 | 申请日: | 2015-06-01 |
公开(公告)号: | CN105045769A | 公开(公告)日: | 2015-11-11 |
发明(设计)人: | 刘东;朱鸿乔;李新明;邢维艳;李艺;李亢;王寿彪;饶磊;闫雪飞;于少波;李强 | 申请(专利权)人: | 中国人民解放军装备学院 |
主分类号: | G06F17/22 | 分类号: | G06F17/22 |
代理公司: | 中国人民解放军防化研究院专利服务中心 11046 | 代理人: | 刘永盛 |
地址: | 101416*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 结构 识别 web 表格 信息 抽取 方法 | ||
技术领域
本发明属于Web信息抽取技术领域,可用于对Web文档中表格信息的抽取和存储,特别是对数据间关系难以理解的复杂Web表格的信息抽取问题具有较好的处理能力。
背景技术
信息抽取是数据挖掘领域的一个重要研究方向,海量存在的Web资源又使得面向Web的信息抽取成为当前该领域的研究热点。在形式各异的Web信息中,表格(Tables)是Web文档中一种重要的数据表现形式,通常用于组织所描述对象的基本信息、统计数据等。由于这些结构化的数据具有的较高的使用价值,因此进行表格数据抽取的研究具有重要的意义。然而,HTML标记语言主要用于对数据进行展示,不具有对数据进行描述的能力。Web表格结构往往体现着数据间的关系,这种结构的解读依赖于用户的理解,而应用程序则无法直接读懂这些信息。在将复杂结构的Web表格转化成面向存储的逻辑模型时,需要考虑单元格的类型、数据间的关联约束等问题。因此,如何解决这些问题来正确理解表格结构就成为对表格信息进行准确抽取的关键。
早在1996年,《GraphicsRecognitionMethodsandApplications》中的一篇文章《Model-basedanalysisofprintedtables》就曾对表头单元格、属性单元格和数据单元格进行了层次上的划分,并通过label标记的方法对不同逻辑层次的单元格进行了表示。但是该研究的对象仅限于出版物中的表格,这类规范化程度较高的表格和格式约束较少的Web表格存在较大差异。此外,文中提出的单元格层次的划分方法在实际的处理过程中难度较大,并不适合通过编程语言进行操作。在2001年PacificAssociationforComputationalLinguistics的论文集中,《ExtractionontologiesfromWorldWideWebviaHTMLtables》一文提出了一种基于字符串比对的表格结构识别方法,但是该方法没有充分利用表格自身的特点,并且进行结构识别时需要比对的字符串较多,这就对表格结构识别的效率造成了影响。第八届《Informationandknowledgemanagement》国际会议中的一篇文章《AnautomatedapproachforretrievinghierarchicaldatafromHTMLtables》介绍了两种类型的数据层次的概念,并提出了一种基于表格中数据层次关系的内容树(contenttree,CT)的构建方法。国内在Web表格信息抽取领域的研究也取得了一定的进展,合肥工业大学2012年度的一篇硕士学位论文《基于Web结构的表格信息抽取研究》提出了一种基于路径模式挖掘的Web表格信息抽取方法;而燕山大学2008年度的硕士学位论文《基于表格结构的Web信息提取技术研究》则提出了一种基于HTML结构树的列表信息提取方法。但是表格结构识别方面的研究大多集中在通过本体的方法进行,和国外的研究相比思路较为单一、方法的可操作性不强。表格的结构模型直接决定着信息的抽取策略,不仅要能体现原表格中数据间的关系,又要尽可能减少冗余数据的产生。其中涉及到的一个主要问题就是如何使表格更加规整化,即如何处理存在rowspan和colspan情况的单元格。目前采用的最主要的方法就是如Proceedingsofthe18thconferenceonComputationallinguistics-Volume1.AssociationforComputationalLinguistics中的一篇文章《MiningtablesfromlargescaleHTMLtexts》所介绍的“将单元格按照rowspan和colspan的值划分成相应数量的基本单元格,并将原单元格中的内容复制到这些单元格中”的方法。这种方法虽然能在一定程度上保留原数据间的关系,但是不可避免的会造成大量重复数据(冗余数据)的出现。
本发明从表格自身所隐含的规则出发,探寻一种简单、有效的表格结构识别方法,以便于对Web表格信息进行准确抽取;并通过对两种维度表格特征的分析提出新的、面向存储的值单元格处理方法,可以在一定程度上减少冗余数据的产生。
发明内容
本发明的目的是为了解决Web中表格信息的抽取问题,尤其是复杂表格的信息抽取策略。通常在对后者进行信息抽取时,数据间关系的难以理解会对抽取结果的准确性造成影响。
本发明的技术方案如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军装备学院,未经中国人民解放军装备学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510287215.0/2.html,转载请声明来源钻瓜专利网。