[发明专利]一种基于结构识别的Web表格信息抽取方法在审

申请号：	201510287215.0	申请日：	2015-06-01
公开（公告）号：	CN105045769A	公开（公告）日：	2015-11-11
发明（设计）人：	刘东;朱鸿乔;李新明;邢维艳;李艺;李亢;王寿彪;饶磊;闫雪飞;于少波;李强	申请（专利权）人：	中国人民解放军装备学院
主分类号：	G06F17/22	分类号：	G06F17/22
代理公司：	中国人民解放军防化研究院专利服务中心 11046	代理人：	刘永盛
地址：	101416***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种基于结构识别的Web表格信息抽取方法。在该方法过程中，表格结构的识别采用了两种渐进式的方法进行。首先采用了一组启发式的规则对常见的几种类型的表格进行结构的判断，从而确定了Web中较大一部分表格的结构类型；对通过启发式规则未能识别的表格，采用字符串匹配的方式进行，被匹配的单元格被限定在ULC(upper-left-cell)所在的行或列中，这样就可以大大减少需要进行字符串匹配的内容，提高了匹配和识别的效率。最后，从总的两个维度的表格出发，分别提出了在信息抽取过程中合成单元格的处理策略问题，可以在保证抽取结果中数据间的关系不被破坏的基础上，尽可能的降低冗余数据的产生。
搜索关键词：	一种基于结构识别 web 表格信息抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于结构识别的Web表格信息抽取方法，其特征是该方法步骤如下：首先通过启发式规则对表格的结构进行识别，启发式规则为：①表格左上角的单元格的英文名称为upper‑left‑cell，缩写为ULC，当该单元格中的内容为空时，表格为二维表格，当该单元格中的内容不为空且表格中的内容存在属性‑值关系时，ULC为属性单元格；②当表格中由<th>标签构造的单元格的个数大于2且这些单元格位于表格中的同一行或同一列时，这些单元格是表格的属性单元格；对于符合启发式规则的表格，当识别出的属性区域仅按行展开，则表格为一维表格，当属性区域同时按行和按列展开，则表格为二维表格；一维表格二维表格对于通过步骤1不能进行结构识别的表格，再根据表格中同一属性下的值在内容上具有相似性这一特点，采用字符串编辑距离的方法对单元格中内容字符串间的相似度进行计算，进而区分出表格中的属性单元格区域和值单元格区域；通过对50组不同属性下的属性值组进行内容相似度的计算，得出同一属性下属性值间相似度的阈值为0.3；为了减少进行表格结构识别时相似度计算的次数，根据步骤1中的启发式规则①和表格右下角单元格为值单元格这一特点，仅对ULC和右下角单元格所在的行和列中的单元格进行内容相似度计算，当相似度的值大于0.3，两个单元格中的值同属一个属性，反之则不属于；在进行相似度计算后，当识别出的属性区域仅按行展开，则表格为一维表格，当属性区域同时按行和按列展开，则表格为二维表格；通过上述两步骤之后即可判定表格的结构类型，对于一维表格中横向展开的类型，当值单元格C₂的属性colspan的值大于其所在行中属性单元格C₁的属性colspan的值，则将该值单元格进行分割，得到的两个新的单元格的rowspan的值不变，colspan的值分别为C₁.colspan.value、C₂.colspan.value‑C₁.colspan.value，否则不对该值单元格进行处理；对于一维表格中纵向展开的类型，当值单元格C₂的属性rowspan的值大于其所在列中属性单元格C₁的属性rowspan的值，则将该值单元格进行分割，得到的两个新的单元格colspan的值不变，rowspan的值分别为C₁.rowspan.value、C₂.rowspan.value‑C₁.rowspan.value，否则不对该值单元格进行处理；对于二维表格，包括ULC为空或不为空的两种情况，分别根据值单元格所在行中的属性单元格的colspan的值和所在列中的单元格的rowspan的值对该值单元格进行分割，分割的方法同一维表格的处理过程。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国人民解放军装备学院，未经中国人民解放军装备学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201510287215.0/，转载请声明来源钻瓜专利网。

上一篇：叠氮化合物的制造方法和1H‑四唑衍生物的制造方法
下一篇：一种基于串行总线的智能连接充电方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于结构识别的Web表格信息抽取方法在审

专利文献下载