[发明专利]黑灰URL识别方法、装置、电子设备及介质在审
申请号: | 202010618920.5 | 申请日: | 2020-06-30 |
公开(公告)号: | CN111814643A | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 赵鑫;王伟;吴鹏 | 申请(专利权)人: | 杭州科度科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/34;G06K9/32;G06K9/46;H04L29/06;H04L29/12;G06F16/955 |
代理公司: | 杭州创智卓英知识产权代理事务所(普通合伙) 33324 | 代理人: | 唐超文 |
地址: | 310000 浙江省杭州市余杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | url 识别 方法 装置 电子设备 介质 | ||
本发明公开了一种黑灰URL识别方法,涉及网络安全技术领域,用于解决黑灰网站大多依靠网友举报,导致难以遏制黑灰网站传播的问题。该黑灰URL识别方法包括以下步骤:获取疑似URL,访问疑似URL以跳转至对应的疑似网站;截取疑似网站的首页图像,并根据首页图像的文字信息计算首页图像的黑灰度;判断黑灰度是否符合第一预警范围,若是则将对应的疑似URL记为黑灰URL,若否则将对应的疑似URL记为第一URL。该识别方法可以快速识别出黑灰URL,从而为网络监管系统的建立提供基础。本发明还提供了一种黑灰URL识别装置、电子设备及计算机可读存储介质。
技术领域
本发明涉及网络安全技术领域,尤其涉及一种黑灰URL识别方法、装置、电子设备及介质。
背景技术
近年来,随着电脑及网络的普及,越来越多的网络使用者习惯依赖网络获取各自需要的信息,而网络也确实给人们获取信息的需要提供快速便捷的服务。网络使用者最常用的方式是通过关键词搜索自己需要的信息,比如健康知识、休闲娱乐信息、书籍阅读等,这些信息都给人们的生活带来很大的帮助。
但是,我们也应该看到,很多的网站也充斥着很多不良和危险的信息,加上网络具有易得性和互动性的特点,使得这些危险信息很容易触及到网络使用者,并且难以追踪查缉。
由于目前网络监管系统还不是十分健全,从而黑灰网站大多是依靠网友举报实现,导致难以遏制黑灰网站的传播。
发明内容
为了克服现有技术的不足,本发明的目的之一在于提供一种黑灰URL识别方法,以快速识别黑灰URL。
本发明的目的之一采用如下技术方案实现:
一种黑灰URL识别方法,包括以下步骤:获取疑似URL,访问所述疑似URL以跳转至对应的疑似网站;截取所述疑似网站的首页图像,并根据所述首页图像的文字信息计算所述首页图像的黑灰度;判断所述黑灰度是否符合第一预警范围,若是则将对应的疑似URL记为黑灰URL,若否则将对应的疑似URL记为第一URL。
进一步地,获取疑似URL,包括以下步骤:
获取待识别URL;
提取所述待识别URL的域名信息;
判断所述域名信息是否符合疑似规则,若是,则将对应的待识别URL记为疑似URL。
进一步地,所述域名信息包括数字和字母,所述疑似规则包括:字母个数为0、数字和字母的总长度大于10、字母不连续、字母连续但与英文单词库不匹配。
进一步地,所述疑似规则还包括疑似度在疑似范围内,所述疑似度的计算包括以下步骤:
基于所述域名信息查询IP更换时间;
计算相邻IP更换时间之间的时间间隔T,根据时间间隔T的长度对所述时间间隔T进行分组;
查询各组的系数和占比,并基于各组的系数和占比计算所述疑似度。
进一步地,还包括以下步骤:
查询与所述第一URL对应的网站文本信息;
基于所述网站文本信息计算敏感词的TF-IDF值;
判断所述TF-IDF值是否符合第二预警范围,若是则将对应的第一URL记为黑灰URL。
进一步地,还包括以下步骤:
查询与所述第一URL对应的文档名称;
提取所述文档名称的特殊量和命名架构,并组成名称特征;
判断所述名称特征与黑灰名称特征库是否匹配,若是则将所述对应的第一URL记为黑灰URL,其中所述黑灰名称特征库与黑灰网站关联。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州科度科技有限公司,未经杭州科度科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010618920.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种金属橡胶热传递实时监测装置
- 下一篇:一种控制棒及高温气冷堆