[发明专利]一种用于复杂页面的包装器自动生成方法有效
申请号: | 200910029561.3 | 申请日: | 2009-03-24 |
公开(公告)号: | CN101515287A | 公开(公告)日: | 2009-08-26 |
发明(设计)人: | 崔志明;方巍;赵朋朋 | 申请(专利权)人: | 崔志明;方巍;赵朋朋 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F9/44 |
代理公司: | 苏州创元专利商标事务所有限公司 | 代理人: | 陶海锋 |
地址: | 215001江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 复杂 页面 包装 自动 生成 方法 | ||
技术领域
本发明涉及一种Web页面的信息识别的方法,具体涉及一种应用于复杂页面的用于抽取深层网页数据信息的包装器的自动生成方法。
背景技术
Internet上Web网页大都以HTML的形式加以呈现,而HTML的特点使得任何组织和个人都可以按照自己的想法,在Web上发布内容多样,形式丰富的信息。Web数据的这种半结构化乃至无结构化的状态,使得Web页面只合适人类的浏览,而不利于应用程序直接解析并利用Web上的海量有价值的信息。另一方面,随着Internet以及电子商务的快速发展,“信息爆炸”已经成为人们有效获取信息的一个阻碍。因此,利用计算机对Web信息进行自动化的抽取,变得更加具有现实性和急迫性。
当前,Web上的很多网页是动态生成的,网站根据用户请求从后台数据库中选取数据并嵌入到通用的模板中,这类称之为深层网络页面(Deep Web)的网站是Internet上的重要组成部分。研究表明,Deep Web信息是表层网页(Surface Web)信息的500倍,有近450,000个Deep Web站点。由于此类网站的Web数据是根据请求动态生成的,因此,传统的搜索引擎不能很好地对此类数据加以索引。通过观察,我们可以发现,此类网站往往通过分类列表页和详细页面向用户展示其保存在数据库中的信息。而对此类Web页面的数据抽取则是进行深层网页数据集成的前提。
近年来,对于普通数据导向(data-intensive)类型的站点,有研究学者提出了一些包装器的生成方法,有效地解决了一般网站的数据抽取问题。包装器的任务就是采用一系列规则,将用户所关心的有用信息,从Web网页抽取出来。由于HTML文档的格式表现各异,不同数据源的HTML文档往往需要不同的抽取规则,因此,包装器往往和特定数据源的网页格式密切相关。目前的包装器主要存在以下一些缺点:(1)开发和使用包装器需要较高的技巧,需要人工参与,要花费大量的时间去研究要抽取网页的结构。这种方式不利用大规模的网页数据集成。(2)由于包装器是跟特定数据源密切相关的,因此,如果网页的设计者更改了原有的网页的布局,那么现有的包装器就可能失效。(3)研究大多数局限在简单结果页面的数据抽取问题。
发明内容
本发明目的是提供一种基于HTML Tag树的自动化包装器生成方法,从而提高数据抽取的自动化程度以及抽取准确率和效率。
为达到上述目的,本发明采用的技术方案是:一种用于复杂页面的包装器自动生成方法,包括下列步骤:
(1)获取基于同一模板生成的两个HTML页面文档,利用XML解析器分别解析成具有树形结构的文档对象模型,即HTML标记树;
(2)比较步骤(1)获得的两个HTML标记树,去除噪声区,获得包含数据记录集合的最小区域DS;
(3)从所述最小区域中获取初始数据记录,其方法是,从HTML标记树中得到DS区的最长公共子串,通过发现DS区中的重复区域来识别出初始的数据记录DR,所述数据记录用一个二元组(D,G)表示,D代表记录属性的集合,G代表属性在Html页面的布局组合关系;
(4)根据初始的数据记录DR的布局组合关系,依据特征项的相似度,确定抽取项(实例属性)的聚集关系,并结合领域本体的知识,对同一聚集块中实体进行语义标注,根据实体间语义关系重新组合成新的数据记录DR2;
(5)根据步骤(4)中生成的数据记录DR2在HTML标记树中的位置关系,生成每个聚集块的抽取规则,然后构建包装器。
上文中,所述步骤(4)中,根据实体间语义关系重新组合成新的数据记录DR2可以准确反应数据间关系,符合用户需求。
上述技术方案中,所述步骤(4)中的特征项包括样式特征、特征词。
为便于对上述技术方案的理解,请一步说明如下:
在Web页面中,一个复杂列表页面具有如下的基本特征:
①从产生方式上看,复杂页面是由网页模板T所生成。
②从内容上看,复杂页面中的数据记录(DR)中不仅包括图像、也包括文本。
③从网页布局结构上看,复杂页面中的DR中的内容可以被组织成多列或多个区域,或者同一模板下的DR布局可以根据条件不同而不同。
下面对基于模板产生的Web页面进行合理的形式化描述。
列表网页模板T:列表网页模板T=H∪N。H代表用户所关心的抽取数据区域Data-rich;N代表噪声区。我们用一个二元组(S,P)来表示H,其中,S代表数据记录集(DRs),P代表DR之间的分割关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于崔志明;方巍;赵朋朋,未经崔志明;方巍;赵朋朋许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910029561.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种攻击时漏洞检测方法及其系统
- 下一篇:板级平台调试方法、装置和系统