[发明专利]一种用于复杂页面的包装器自动生成方法有效

申请号：	200910029561.3	申请日：	2009-03-24
公开（公告）号：	CN101515287A	公开（公告）日：	2009-08-26
发明（设计）人：	崔志明;方巍;赵朋朋	申请（专利权）人：	崔志明;方巍;赵朋朋
主分类号：	G06F17/30	分类号：	G06F17/30;G06F9/44
代理公司：	苏州创元专利商标事务所有限公司	代理人：	陶海锋
地址：	215001江苏省***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种用于复杂页面的包装器自动生成方法，包括下列步骤：(1)获取基于同一模板的两个HTML页面文档，生成HTML标记树；(2)获得包含数据记录集合的最小区域DS；(3)从最小区域中获取初始数据记录；(4)根据初始的数据记录DR的布局组合关系，依据特征项的相似度，确定抽取项的聚集关系，并结合领域本体的知识，对同一聚集块中实体进行语义标注，根据实体间语义关系重新组合成新的数据记录；(5)根据步骤(4)中生成的数据记录在HTML标记树中的位置关系，生成每个聚集块的抽取规则，然后构建包装器。本发明能够通过对HTML Tag树的结构关系的分析，从复杂页面中抽取出真正的数据记录规则，从而可以自动构建抽取准确率高的包装器。
搜索关键词：	一种用于复杂页面包装自动生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种用于复杂页面的包装器自动生成方法，其特征在于：包括下列步骤：(1)获取基于同一模板生成的两个HTML页面文档，利用XML解析器分别解析成具有树形结构的文档对象模型，即HTML标记树；(2)比较步骤(1)获得的两个HTML标记树，去除噪声区，获得包含数据记录集合的最小区域DS；(3)从所述最小区域中获取初始数据记录，其方法是，从HTML标记树中得到DS区的最长公共子串，通过发现DS区中的重复区域来识别出初始的数据记录DR，所述数据记录用一个二元组(D，G)表示，D代表记录属性的集合，G代表属性在Html页面的布局组合关系；(4)根据初始的数据记录DR的布局组合关系，依据特征项的相似度，确定抽取项的聚集关系，并结合领域本体的知识，对同一聚集块中实体进行语义标注，根据实体间语义关系重新组合成新的数据记录DR2；(5)根据步骤(4)中生成的数据记录DR2在HTML标记树中的位置关系，生成每个聚集块的抽取规则，然后构建包装器。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于崔志明;方巍;赵朋朋，未经崔志明;方巍;赵朋朋许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/200910029561.3/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种用于复杂页面的包装器自动生成方法有效

专利文献下载