[发明专利]HTML表格语义脉络分析方法无效

申请号：	200910272408.3	申请日：	2009-10-20
公开（公告）号：	CN102043819A	公开（公告）日：	2011-05-04
发明（设计）人：	尹文生	申请（专利权）人：	华中科技大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	430074 湖北***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	html 表格语义脉络分析方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种HTML表格的语义分析方法，尤其是能应用在网页文档的检索中，可以根据HTML表格中不同单元格之间的几何位置关系建立关联关系，从而对表格中的数据内容建立起语义脉络关系。

背景技术

表格是人们一种常用的、结构化表达语义关系的手段，可以有效地对一个或多个类的具体的实例进行描述，因此表格被广泛地应用于各种文档中。随着互联网技术的发展和应用的推广，以超文本标记语言(HTML)等形式构建的表格在网页中得到广泛使用。对于人类而言，用表格来表达语义关系是比较清晰的，但由于人的智能性、简略性及不规范性，许多表格蕴含了非常复杂的语义关系，在许多情况下对计算机来说难以理解。这里主要研究符合一般人的制表和阅读习惯的HTML表格的处理方法，表格之间没有语义关系、或者非常不规范的表格不是这里涉及的范围。

由于表格中的各个单元格之间具有一定的语义关系，为了理解表格的语义首先必须对表格进行分析。其次，需要将分析结果以合适的方式提供给文档检索系统。

HTML等语言通过标记词TABLE、TBODY、TR、TH、TD作为骨架来构建表格。表格分析的任务就是将包含这些标记词的文件转化成文档对象模型(Document Object Model，DOM)，建立不同单元格之间的逻辑关系，最后对单元格进行组合形成一个比较完整的语义描述。

HTML表格通过属性-值对来描述对象。内容为对象属性的单元格称为属性单元格，内容为属性值的单元格称为值单元格。按照属性单元格所在位置，可将表格分为行标题表格、列标题表格、行列标题表格、无标题表格4种基本类型。HTML表格存在语法层次结构，是表格中数据内容的内在语义层次的反映[1]。表格语义分析的任务就是找出表格中数据内容中的语义关系。

在HTML表格的分析方面，许多学者进行了大量的工作，如文献[2]基于正则表达式匹配技术从HTML表格中抽取信息；文献[3]基于本体使用隐马尔可夫模型从web页面中抽取属性和值；文献[4，5]用内容树来获取HTML表格信息；文献[6]使用启发式规则；文献[7]通过人工解释表格结构，半自动化地抽取表格数据；文献[8]集成HTML表格的半自动化方法。表格语义分析的关键是确定单元格之间的关系，由于单元格之间是以几何位置表现出来，因此分析单元格之间的几何位置关系是分析表格语义关系的一个重要方法，所以文献[6，7，8]所介绍的方法比较直观，也比较有效，但是需要一定的人工干预。其中，文献[7]在仔细分析常见的一些表格后指出表格单元格之间的关系可以根据相邻单元格之间边的关系分为双向、单向和无关系三类，这样在人工的帮助下可以有效地识别并搜索出单元格之间的这些关系。

文献[1]为了克服半自动方法效率低的缺点，在分析了这些方法的基础上提出了一种自动获取HTML表格语义层次结构及信息的方法，通过自上而下、从左向右对表格拆分成基本类型表格来获得语义层次结构，同时还可以解决嵌套表格问题。

表格语义分析的主要目的是为了有效地进行文档的检索，因此必须将表格语义分析结果以合适的方式记录下来。表格语义分析结果一般都采用内容树予以记录，这样可以按照本体的方式进行组织，并存储在本体的树或数据库中。当进行文档检索时，可以沿着本体的树结构进行搜索。显然，当表格被转化成内容树以后，查询的效率将会大大提高，但是由于本体论的研究和应用还处在初级阶段，还存在许多问题没有解决，同时描述表格语义数据也需要耗费大量的空间，增加数据库的负担。

因此本发明人认为目前表格语义关系的分析主要存在两大问题。一个问题是由于表格语义关系的高度复杂性，设计能完全正确识别成功的自动方法存在较大的困难，例如文献[7]仅考虑相邻单元格之间的关系，没有作用域的概念，所以需要人工的参与。另一个问题是，如何有效地将表格分析结果应用于文档的检索。

主要参考文献：

[1]范莉娅，肖田元。自动获取HTML表格语义层次结构方法[J]。清华大学学报(自然科学版)，2007，47(10)：1586-1590

[2]张凯。基于本体的web信息集成若干关键技术研究[D]。上海：复旦大学博士论文，2004。

[3]Minoru YOSHIDA.Extracting attributes and their values from web pages[C].Proceedings ofthe ACL Student Research Workshop，Philadelphia，.July 2002，pp.72-77.

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华中科技大学，未经华中科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200910272408.3/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]HTML表格语义脉络分析方法无效

专利文献下载