[发明专利]一种网站识别方法及装置有效
申请号: | 201710591679.X | 申请日: | 2017-07-19 |
公开(公告)号: | CN110020065B | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 谷长信 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 李辉 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网站 识别 方法 装置 | ||
1.一种网站识别方法,其特征在于,包括:
获取网站的域名;
获取与所述网站的域名对应的网站内容,根据所述网站内容生成所述网站的最新内容摘要;
根据所述网站的域名判断所述网站是否存在于不活跃网站队列中;
若判断所述网站不存在于不活跃网站队列中时,将所述网站加入不活跃网站队列,设置第一时间间隔;当设置的第一时间间隔到达时,执行获取所述网站的域名的步骤;
将所述网站的最新内容摘要与预先保存的所述网站的旧内容摘要进行比较,得到所述网站的最新内容摘要与所述网站的旧内容摘要的相似度;
根据得到的所述网站的最新内容摘要与所述网站的旧内容摘要的相似度,标识所述网站的活跃程度,
其中,所述根据得到的所述网站的最新内容摘要与所述网站的旧内容摘要的相似度,标识所述网站的活跃程度包括:
当所述相似度小于第一设定阈值时,更新所述网站的差异计数;所述差异计数用于标识所述网站更新的频次;
判断所述网站的差异计数是否大于第二设定阈值;
若判断所述网站的差异计数大于第二设定阈值时,标识所述网站为活跃网站;
若判断所述网站的差异计数不大于第二设定阈值时,设置第二时间间隔;当设置的第二时间间隔到达时,执行获取所述网站的域名的步骤,其中,所述第二时间间隔小于所述第一时间间隔。
2.根据权利要求1所述的方法,其特征在于,在获取与所述网站的域名对应的网站内容,根据所述网站内容生成所述网站的最新内容摘要后,所述方法还包括:
若判断所述网站存在于不活跃网站队列中时,执行将所述网站的最新内容摘要与预先保存的所述网站的旧内容摘要进行比较的步骤。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
当所述相似度大于第一设定阈值时,更新所述网站的相似计数与差异计数;所述相似计数和所述差异计数用于标识所述网站更新的频次;
设置第三时间间隔,当设置的第三时间间隔到达时,执行获取所述网站的域名的步骤;其中,所述第三时间间隔大于所述第一时间间隔。
4.一种网站识别装置,其特征在于,包括:
域名获取单元,用于获取网站的域名;
摘要生成单元,用于获取与所述网站的域名对应的网站内容,根据所述网站内容生成所述网站的最新内容摘要;
第一判断单元,用于根据所述网站的域名判断所述网站是否存在于不活跃网站队列中;
设定单元,用于若判断所述网站不存在于不活跃网站队列中时,将所述网站加入不活跃网站队列,设置第一时间间隔;当设置的第一时间间隔到达时,执行获取所述网站的域名的步骤;
比较单元,用于将所述网站的最新内容摘要与预先保存的所述网站的旧内容摘要进行比较,得到所述网站的最新内容摘要与所述网站的旧内容摘要的相似度;
标识单元,用于根据得到的所述网站的最新内容摘要与所述网站的旧内容摘要的相似度,标识所述网站的活跃程度,
其中,所述标识单元还用于:当所述相似度小于第一设定阈值时,更新所述网站的差异计数;所述差异计数用于标识所述网站更新的频次;判断所述网站的差异计数是否大于第二设定阈值;若判断所述网站的差异计数大于第二设定阈值时,标识所述网站为活跃网站,
其中,所述标识单元还用于:若判断所述网站的差异计数不大于第二设定阈值时,设置第二时间间隔;当设置的第二时间间隔到达时,执行获取所述网站的域名的步骤,其中,所述第二时间间隔小于所述第一时间间隔。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710591679.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:网页的爬取方法和装置
- 下一篇:一种往爬虫平台注任务的方法及装置