[发明专利]黑灰URL识别方法、装置、电子设备及介质在审
申请号: | 202010618920.5 | 申请日: | 2020-06-30 |
公开(公告)号: | CN111814643A | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 赵鑫;王伟;吴鹏 | 申请(专利权)人: | 杭州科度科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/34;G06K9/32;G06K9/46;H04L29/06;H04L29/12;G06F16/955 |
代理公司: | 杭州创智卓英知识产权代理事务所(普通合伙) 33324 | 代理人: | 唐超文 |
地址: | 310000 浙江省杭州市余杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | url 识别 方法 装置 电子设备 介质 | ||
1.一种黑灰URL识别方法,其特征在于,包括以下步骤:
获取疑似URL,访问所述疑似URL以跳转至对应的疑似网站;
截取所述疑似网站的首页图像,并根据所述首页图像的文字信息计算所述首页图像的黑灰度;
判断所述黑灰度是否符合第一预警范围,若是则将对应的疑似URL记为黑灰URL,若否则将对应的疑似URL记为第一URL。
2.根据权利要求1所述的黑灰URL识别方法,其特征在于,获取疑似URL,包括以下步骤:
获取待识别URL;
提取所述待识别URL的域名信息;
判断所述域名信息是否符合疑似规则,若是,则将对应的待识别URL记为疑似URL。
3.根据权利要求2所述的黑灰URL识别方法,其特征在于,所述域名信息包括数字和字母,所述疑似规则包括:字母个数为0、数字和字母的总长度大于10、字母不连续、字母连续但与英文单词库不匹配。
4.根据权利要求2所述的黑灰URL识别方法,其特征在于,所述疑似规则还包括疑似度在疑似范围内,所述疑似度的计算包括以下步骤:
基于所述域名信息查询IP更换时间;
计算相邻IP更换时间之间的时间间隔T,根据时间间隔T的长度对所述时间间隔T进行分组;
查询各组的系数和占比,并基于各组的系数和占比计算所述疑似度。
5.根据权利要求1~4任意一项所述的黑灰URL识别方法,其特征在于,还包括以下步骤:
查询与所述第一URL对应的网站文本信息;
基于所述网站文本信息计算敏感词的TF-IDF值;
判断所述TF-IDF值是否符合第二预警范围,若是则将对应的第一URL记为黑灰URL。
6.根据权利要求1~4任意一项所述的黑灰URL识别方法,其特征在于,还包括以下步骤:
查询与所述第一URL对应的文档名称;
提取所述文档名称的特殊量和命名架构,并组成名称特征;
判断所述名称特征与黑灰名称特征库是否匹配,若是则将所述对应的第一URL记为黑灰URL,其中所述黑灰名称特征库与黑灰网站关联。
7.根据权利要求1~4任意一项所述的黑灰URL识别方法,其特征在于,还包括以下步骤:
查询与第一URL对应的注册信息;
判断所述注册信息与黑灰注册信息库是否匹配,若是则将对应的第一URL记为黑灰URL,其中黑灰注册信息库与黑灰网站关联。
8.一种黑灰URL识别装置,其特征在于,包括:
获取模块,用于获取疑似URL,访问所述疑似URL以跳转至对应的疑似网站;
截取模块,用于截取所述疑似网站的首页图像,并根据所述首页图像的文字信息计算所述首页图像的黑灰度;
判断模块,用于判断所述黑灰度是否符合第一预警范围,若是则将对应的疑似URL记为黑灰URL,若否则将对应的疑似URL记为第一URL。
9.一种电子设备,其包括处理器、存储介质以及计算机程序,所述计算机程序存储于存储介质中,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任意一项所述的黑灰URL识别方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任意一项所述的黑灰URL识别方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州科度科技有限公司,未经杭州科度科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010618920.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种金属橡胶热传递实时监测装置
- 下一篇:一种控制棒及高温气冷堆