[发明专利]一种网站识别方法及装置有效
申请号: | 201710591679.X | 申请日: | 2017-07-19 |
公开(公告)号: | CN110020065B | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 谷长信 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 李辉 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请实施例提供一种网站识别方法和设备,所述方法包括:获取网站的域名,获取与所述网站的域名对应的网站内容,根据所述网站内容生成所述网站的最新内容摘要;将所述网站的最新内容摘要与预先保存的所述网站的旧内容摘要进行比较,得到所述网站的最新内容摘要与所述网站的旧内容摘要的相似度;根据得到的所述网站的最新内容摘要与所述网站的旧内容摘要的相似度,标识所述网站的活跃程度。本申请实施例提供的方法可以根据网站内容摘要的变化,标识网站的活跃程度,有效识别网站从不活跃到活跃的变化。 | ||
搜索关键词: | 一种 网站 识别 方法 装置 | ||
【主权项】:
1.一种网站识别方法,其特征在于,包括:获取网站的域名;获取与所述网站的域名对应的网站内容,根据所述网站内容生成所述网站的最新内容摘要;将所述网站的最新内容摘要与预先保存的所述网站的旧内容摘要进行比较,得到所述网站的最新内容摘要与所述网站的旧内容摘要的相似度;根据得到的所述网站的最新内容摘要与所述网站的旧内容摘要的相似度,标识所述网站的活跃程度。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710591679.X/,转载请声明来源钻瓜专利网。
- 上一篇:网页的爬取方法和装置
- 下一篇:一种往爬虫平台注任务的方法及装置