[发明专利]一种网站识别方法及装置有效
申请号: | 201710591679.X | 申请日: | 2017-07-19 |
公开(公告)号: | CN110020065B | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 谷长信 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 李辉 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网站 识别 方法 装置 | ||
本申请实施例提供一种网站识别方法和设备,所述方法包括:获取网站的域名,获取与所述网站的域名对应的网站内容,根据所述网站内容生成所述网站的最新内容摘要;将所述网站的最新内容摘要与预先保存的所述网站的旧内容摘要进行比较,得到所述网站的最新内容摘要与所述网站的旧内容摘要的相似度;根据得到的所述网站的最新内容摘要与所述网站的旧内容摘要的相似度,标识所述网站的活跃程度。本申请实施例提供的方法可以根据网站内容摘要的变化,标识网站的活跃程度,有效识别网站从不活跃到活跃的变化。
技术领域
本申请实施例涉及计算机技术领域,具体涉及一种网站识别方法及装置。
背景技术
随着互联网技术的发展,互联网网站数目不断增长。目前,互联网上存在大量长时间不活跃或者内容很少更新的僵尸网站。现有技术中,常常需要对各类网站进行分析、统计。在对各类网站进行分析、统计时,为了避免浪费有限的资源,常常会避免抓取僵尸网站的内容。然而,若僵尸网站重新开始活跃,将会成为有效的数据资源。现有技术并不存在有效识别网站从僵尸网站变为活跃网站的方法。
发明内容
本申请实施例提供了一种网站识别方法及装置,可以根据网站内容摘要的变化,标识网站的活跃程度,有效识别网站从非活跃到活跃的变化。
为此,本申请实施例提供如下技术方案:
本申请实施例的第一方面公开了一种网站识别方法,包括:获取网站的域名;获取与所述网站的域名对应的网站内容,根据所述网站内容生成所述网站的最新内容摘要;将所述网站的最新内容摘要与预先保存的所述网站的旧内容摘要进行比较,得到所述网站的最新内容摘要与所述网站的旧内容摘要的相似度;根据得到的所述网站的最新内容摘要与所述网站的旧内容摘要的相似度,标识所述网站的活跃程度。
可选地,在获取与所述网站的域名对应的网站内容,根据所述网站内容生成所述网站的最新内容摘要后,所述方法还包括:根据所述网站的域名判断所述网站是否存在于不活跃网站队列中;若判断所述网站不存在于不活跃网站队列中时,将所述网站加入不活跃网站队列,设置第一时间间隔;当设置的第一时间间隔到达时,执行获取所述网站的域名的步骤;若判断所述网站存在于不活跃网站队列中时,执行将所述网站的最新内容摘要与预先保存的所述网站的旧内容摘要进行比较的步骤。
可选地,所述根据得到的所述网站的最新内容摘要与所述网站的旧内容摘要的相似度,标识所述网站的活跃程度包括:当所述相似度小于第一设定阈值时,更新所述网站的差异计数;所述差异计数用于标识所述网站更新的频次;判断所述网站的差异计数是否大于第二设定阈值;若判断所述网站的差异计数大于第二设定阈值时,标识所述网站为活跃网站。
可选地,所述方法还包括:若判断所述网站的差异计数不大于第二设定阈值时,设置第二时间间隔;当设置的第二时间间隔到达时,执行获取所述网站的域名的步骤;其中,所述第二时间间隔小于所述第一时间间隔。
可选地,所述方法还包括:当所述相似度大于第一设定阈值时,更新所述网站的相似计数与差异计数,标识所述网站为不活跃网站;所述相似计数和所述差异计数用于标识所述网站更新的频次;设置第三时间间隔,当设置的第三时间间隔到达时,执行获取所述网站的域名的步骤;其中,所述第三时间间隔大于所述第一时间间隔。
可选地,所述根据得到的所述网站的最新内容摘要与所述网站的旧内容摘要的相似度,标识所述网站的活跃程度包括:根据所述相似度确定所述网站内容的更新比例;判断所述网站内容的更新比例是否大于第三设定阈值;若判断所述网站内容的更新比例大于第三设定阈值时,标识所述网站为活跃网站。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710591679.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:网页的爬取方法和装置
- 下一篇:一种往爬虫平台注任务的方法及装置