[发明专利]一种基于URL和网页文档结构的相似性的网页内容提取方法在审

申请号：	201711402917.4	申请日：	2017-12-22
公开（公告）号：	CN110020055A	公开（公告）日：	2019-07-16
发明（设计）人：	赵廷江	申请（专利权）人：	赵廷江
主分类号：	G06F16/951	分类号：	G06F16/951;G06F16/957
代理公司：	暂无信息	代理人：	暂无信息
地址：	075421 河北省张家口***	国省代码：	河北;13
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	网页内容提取相似度计算相似度网页网页文档网页信息提取结构提取相似网页页面信息抽取
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于URL和网页文档结构的相似性的网页内容提取方法，其特征在于，包括下述步骤：

1)相似性的判断：

URL相似度计算步骤，在所述计算两个网页的相似度的步骤中，根据以下公式1来计算：公式1：page_Cos＝X1*url_Cos+X2*dom_Cos

其中，page_Cos表示是两个网页的相似度，url_Cos表示两个网页的URL的相似度，dom_Cos表示两个网页的DOM结构的相似度，X1，X2表示两种相似度因素的权重，并且X1+X2＝1，来计算两个网页的URL相似度，URL的相同前缀包含的目录深度占总路径深度的比例表示URL的相似度；

DOM结构相似度计算步骤，从根节点出发，深度遍历每个子节点，比较对应叶子节点来的类型；如果对应叶子节点的类型一致，则相似度为1，否则为0；将所有叶子节点的相似度均值作为两个网页的相似度，来计算两个网页DOM结构的相似度；

网页相似度计算步骤，基于URL相似度和DOM结构的相似度计算两个网页的相似度；

网页相似性判断，将计算出的网页的相似度与预定设定的阈值范围进行比较，如果在预先设定的阈值范围内则判断两个网页为相似；

2)相似性的网页内容提取：

判断两个网页为相似，提取两个网页的共有的DOM结构；

网页信息提取步骤，在所述DOM结构提取步骤中已提取的共有DOM结构中提取相似网页对应信息。

2.根据权利要求1所述的一种基于URL和网页文档结构的相似性的网页内容提取方法，其特征在于，在所述计算网页的相似度的步骤中，根据以下公式1来计算：公式1：page_Cos＝X1*url_Cos+X2*dom_Cos

其中，page_Cos表示是两个网页的相似度，url_Cos表示两个网页的URL的相似度，dom_Cos表示两个网页的DOM结构的相似度，X1，X2表示两种相似度因素的权重，并且X1+X2＝1。

3.根据权利要求2所述的一种基于URL和网页文档结构的相似性的网页内容提取方法，其特征在于，在所述URL相似度计算步骤中，用URL的相同前缀包含的目录深度占总路径深度的比例表示URL的相似度。

4.根据权利要求2所述的一种基于URL和网页文档结构的相似性的网页内容提取方法，其特征在于，所述DOM结构相似度计算步骤包括下述子步骤：

从根节点出发，深度遍历每个子节点，比较对应叶子节点来的类型；

如果对应叶子节点的类型一致，则相似度为1，否则为0；

将所有叶子节点的相似度均值作为两个网页的相似度。

5.根据权利要求4所述所述的一种基于URL和网页文档结构的相似性的网页内容提取方法，其特征在于，在所述DOM结构提取步骤中，根据网页的相似信息抽取信息提取共有的根据DOM的结构。

6.根据权利要求5所述的一种基于URL和网页文档结构的相似性的网页内容提取方法，其特征在于，在所述网页信息提取步骤中，比较两个DOM树，并且将相同部分提取出，然后找出对应节点分别包含的信息，将节点和信息的对应关系存储到数据结构中。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于赵廷江，未经赵廷江许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201711402917.4/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载