[发明专利]一种基于URL和网页文档结构的相似性的网页内容提取方法在审

申请号：	201711402917.4	申请日：	2017-12-22
公开（公告）号：	CN110020055A	公开（公告）日：	2019-07-16
发明（设计）人：	赵廷江	申请（专利权）人：	赵廷江
主分类号：	G06F16/951	分类号：	G06F16/951;G06F16/957
代理公司：	暂无信息	代理人：	暂无信息
地址：	075421 河北省张家口***	国省代码：	河北;13
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	网页内容提取相似度计算相似度网页网页文档网页信息提取结构提取相似网页页面信息抽取
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于URL和网页文档结构的相似性的网页内容提取方法，包括下述步骤：1)相似性的判断：URL相似度计算，DOM相似度计算，URL相似度和DOM结构的相似度计算两个网页的相似度在是否在预先设定的阈值范围内，在所述计算两个网页的相似度的步骤中，2)相似性的网页内容提取：判断两个网页为相似，提取两个网页的共有的DOM结构；网页信息提取步骤，在所述DOM结构提取步骤中已提取的共有DOM结构中提取相似网页对应信息，这样能够提升相似页面信息抽取效率和精度。

技术领域

本发明涉及互联网技术，具体地涉及一种基于URL和网页文档结构的相似性的网页内容提取方法。

背景技术

一般而言，网页包含的信息丰富复杂，可以包括导航、标题、正文、时间、甚至广告等内容。为了在网页中抽取有效的内容，就需要对网页继续精细的分析，网络爬虫能够高效地将海量的网页数据下载到本地，在本地形成互联网网页的镜像备份，在信息检索与处理中有很大的作用，是收集网络信息的重要工具，是搜索引擎的重要组成部分，对于网络爬虫来说，抓取下来的网页包括各种格式，其中最常见的是HTML。这些文件抓取下来后，需要把这些文件中的链接和文本等信息提取出来。准确提取这些文档的信息不但会影响后续信息检索的准确性，而且会对正确跟踪其他链接产生一定的影响。传统的网络爬虫在抽取HTML信息时，一般采用正则表达式、关键字识别等方式来识别和抽取网页中的文本、链接等信息。但是许多网页中都包含和内容无关的文本、链接、图片和Flash动画等信息，所以需要花费时间和资源对每个网页采取去噪措施。而且，在这种方式下，对网页信息的抽取都是在离散情况下进行，而同一站点下网页一般存在很大的相似性，我们就无法利用这种相似性和历史的分析成果来提高当前页面的分析抽取效率。

发明内容

本发明的目的在于提供一种能够提升相似页面信息抽取效率和精度的一种基于URL和网页文档结构的相似性的网页内容提取方法。

为实现上述目的，本发明提供如下技术方案：一种基于URL和网页文档结构的相似性的网页内容提取方法，包括下述步骤：

1)相似性的判断：

URL相似度计算步骤，在所述计算两个网页的相似度的步骤中，根据以下公式1来计算：公式1：page_Cos＝X1*url_Cos+X2*dom_Cos

其中，page_Cos表示是两个网页的相似度，url_Cos表示两个网页的URL的相似度，dom_Cos表示两个网页的DOM结构的相似度，X1，X2表示两种相似度因素的权重，并且X1+X2＝1，来计算两个网页的URL相似度，URL的相同前缀包含的目录深度占总路径深度的比例表示URL的相似度；

DOM结构相似度计算步骤，从根节点出发，深度遍历每个子节点，比较对应叶子节点来的类型；如果对应叶子节点的类型一致，则相似度为1，否则为0；将所有叶子节点的相似度均值作为两个网页的相似度，来计算两个网页DOM结构的相似度；

网页相似度计算步骤，基于URL相似度和DOM结构的相似度计算两个网页的相似度；

网页相似性判断，将计算出的网页的相似度与预定设定的阈值范围进行比较，如果在预先设定的阈值范围内则判断两个网页为相似；

2)相似性的网页内容提取：

判断两个网页为相似，提取两个网页的共有的DOM结构；

网页信息提取步骤，在所述DOM结构提取步骤中已提取的共有DOM结构中提取相似网页对应信息。