[发明专利]一种网站的识别方法及装置有效
申请号: | 201710565741.8 | 申请日: | 2017-07-12 |
公开(公告)号: | CN109274632B | 公开(公告)日: | 2021-05-11 |
发明(设计)人: | 付为民;郝建忠;郑浩彬;陈涛;邬学农 | 申请(专利权)人: | 中国移动通信集团广东有限公司;中国移动通信集团公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹;曹杰 |
地址: | 510623 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网站 识别 方法 装置 | ||
1.一种网站的识别方法,其特征在于,所述方法包括:
接收用户访问网站的统一资源定位器URL请求,在白名单中查找所述URL请求对应的URL,若在所述白名单中查找到所述URL请求对应的URL,则连接所述URL请求对应的URL;
在黑名单中查找所述URL请求对应的URL,若在所述黑名单中查找到所述URL请求对应的URL,则生成高危风险提示信息;
若在所述白名单和所述黑名单中均没有查找到所述URL请求对应的URL,则根据预设规则计算所述URL请求对应的URL的各个特征权重值,并根据所述各个特征权重值识别所述URL请求对应的URL是否为异常网站;
所述异常网站具体包括:
高概率异常网站、疑似异常网站和高概率正常网站;
若所述URL请求对应的URL是异常网站,则对所述URL请求对应的URL进行二次识别;
若所述二次识别的结果为所述高概率异常网站,则生成高危风险提示信息,并跟踪识别所述高概率异常网站,二次连接所述高概率异常网站并统计二次连接次数,并添加所述高概率异常网站到所述黑名单中;
若所述二次识别的结果为所述高概率正常网站,则直接连接所述高概率正常网站,并添加所述高概率正常网站到所述白名单中;
若所述二次识别的结果为所述疑似异常网站,则生成一般风险提示信息,跟踪识别所述疑似异常网站,二次连接所述高概率异常网站并统计二次连接次数,并添加所述疑似异常网站到灰名单中。
2.根据权利要求1所述的方法,其特征在于,所述根据预设规则计算所述URL请求对应的URL的各个特征权重值,具体包括:
根据预设规则计算所述URL请求对应的URL的域名名称相似度权重、网页内容相似度权重、用户举报量的权重、二次访问量权重四个维度的特征权重值。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据用户每次反馈信息、爬取网页内容、更新网页内容特征相似度值、网站二次访问量的周期性更新信息对所述黑名单、所述白名单和所述灰名单进行迭代计算识别;
若识别结果为所述高概率异常网站,则添加到所述黑名单中;
若识别结果为所述高概率正常网站,则添加到所述白名单中;
若识别结果既不是所述高概率异常网站也不是所述高概率正常网站,则继续保留在所述灰名单中等待下一次迭代计算,进行识别。
4.根据权利要求2所述的方法,其特征在于,所述域名名称相似度权重的计算方法包括:
建立白名单网站域名库;
对比所述URL请求对应的URL的域名与所述白名单网站域名库中的域名,判断是否存在常见拼写错误、元音字符替代、同音异形字替换、错误的顶级域名替换、错误的二级域名替换、单数复数变换、同形字、缺失或重复某一字符、相邻字符交换位置、键盘相邻字符替代或插入、分隔字符的插入或删除内容,得到判断结果;
根据所述判断结果,计算出所述URL请求对应的URL的域名与所述白名单网站域名库中的域名的相似度得分值,并获取所述得分值中的最大值作为所述URL请求对应的URL的域名名称相似度权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团广东有限公司;中国移动通信集团公司,未经中国移动通信集团广东有限公司;中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710565741.8/1.html,转载请声明来源钻瓜专利网。