[发明专利]一种基于结构识别的Web表格信息抽取方法在审
申请号: | 201510287215.0 | 申请日: | 2015-06-01 |
公开(公告)号: | CN105045769A | 公开(公告)日: | 2015-11-11 |
发明(设计)人: | 刘东;朱鸿乔;李新明;邢维艳;李艺;李亢;王寿彪;饶磊;闫雪飞;于少波;李强 | 申请(专利权)人: | 中国人民解放军装备学院 |
主分类号: | G06F17/22 | 分类号: | G06F17/22 |
代理公司: | 中国人民解放军防化研究院专利服务中心 11046 | 代理人: | 刘永盛 |
地址: | 101416*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于结构识别的Web表格信息抽取方法。在该方法过程中,表格结构的识别采用了两种渐进式的方法进行。首先采用了一组启发式的规则对常见的几种类型的表格进行结构的判断,从而确定了Web中较大一部分表格的结构类型;对通过启发式规则未能识别的表格,采用字符串匹配的方式进行,被匹配的单元格被限定在ULC(upper-left-cell)所在的行或列中,这样就可以大大减少需要进行字符串匹配的内容,提高了匹配和识别的效率。最后,从总的两个维度的表格出发,分别提出了在信息抽取过程中合成单元格的处理策略问题,可以在保证抽取结果中数据间的关系不被破坏的基础上,尽可能的降低冗余数据的产生。 | ||
搜索关键词: | 一种 基于 结构 识别 web 表格 信息 抽取 方法 | ||
【主权项】:
一种基于结构识别的Web表格信息抽取方法,其特征是该方法步骤如下:首先通过启发式规则对表格的结构进行识别,启发式规则为:①表格左上角的单元格的英文名称为upper‑left‑cell,缩写为ULC,当该单元格中的内容为空时,表格为二维表格,当该单元格中的内容不为空且表格中的内容存在属性‑值关系时,ULC为属性单元格;②当表格中由<th>标签构造的单元格的个数大于2且这些单元格位于表格中的同一行或同一列时,这些单元格是表格的属性单元格;对于符合启发式规则的表格,当识别出的属性区域仅按行展开,则表格为一维表格,当属性区域同时按行和按列展开,则表格为二维表格;一维表格二维表格对于通过步骤1不能进行结构识别的表格,再根据表格中同一属性下的值在内容上具有相似性这一特点,采用字符串编辑距离的方法对单元格中内容字符串间的相似度进行计算,进而区分出表格中的属性单元格区域和值单元格区域;通过对50组不同属性下的属性值组进行内容相似度的计算,得出同一属性下属性值间相似度的阈值为0.3;为了减少进行表格结构识别时相似度计算的次数,根据步骤1中的启发式规则①和表格右下角单元格为值单元格这一特点,仅对ULC和右下角单元格所在的行和列中的单元格进行内容相似度计算,当相似度的值大于0.3,两个单元格中的值同属一个属性,反之则不属于;在进行相似度计算后,当识别出的属性区域仅按行展开,则表格为一维表格,当属性区域同时按行和按列展开,则表格为二维表格;通过上述两步骤之后即可判定表格的结构类型,对于一维表格中横向展开的类型,当值单元格C2的属性colspan的值大于其所在行中属性单元格C1的属性colspan的值,则将该值单元格进行分割,得到的两个新的单元格的rowspan的值不变,colspan的值分别为C1.colspan.value、C2.colspan.value‑C1.colspan.value,否则不对该值单元格进行处理;对于一维表格中纵向展开的类型,当值单元格C2的属性rowspan的值大于其所在列中属性单元格C1的属性rowspan的值,则将该值单元格进行分割,得到的两个新的单元格colspan的值不变,rowspan的值分别为C1.rowspan.value、C2.rowspan.value‑C1.rowspan.value,否则不对该值单元格进行处理;对于二维表格,包括ULC为空或不为空的两种情况,分别根据值单元格所在行中的属性单元格的colspan的值和所在列中的单元格的rowspan的值对该值单元格进行分割,分割的方法同一维表格的处理过程。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军装备学院,未经中国人民解放军装备学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510287215.0/,转载请声明来源钻瓜专利网。