[发明专利]一种钓鱼网站的检测方法及装置、存储介质在审
申请号: | 202111245483.8 | 申请日: | 2021-10-26 |
公开(公告)号: | CN113992390A | 公开(公告)日: | 2022-01-28 |
发明(设计)人: | 徐钟豪;王彦磊;刘伟;谢忱 | 申请(专利权)人: | 上海斗象信息科技有限公司 |
主分类号: | H04L9/40 | 分类号: | H04L9/40;H04L61/4511 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 蒋姗 |
地址: | 201203 上海市浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 钓鱼 网站 检测 方法 装置 存储 介质 | ||
1.一种钓鱼网站的检测方法,其特征在于,包括:
获取待检测网站的信息;
根据所述待检测网站的信息和预设的白名单和白名单规则确定所述待检测网站是否为非钓鱼网站;所述预设的白名单中包括多个非钓鱼网站的信息;
若确定所述待检测网站不是非钓鱼网站,根据预设的黑名单规则确定所述待检测网站是否为钓鱼网站;或者,
基于所述待检测网站的信息获取域名特征;根据所述域名特征和预先训练好的第一检测模型,确定第一待检测特征;基于所述待检测网站的信息获取第二待检测特征;所述第二待检测特征和所述域名特征不相同;根据所述第一待检测特征、所述第二待检测特征和预先训练好的第二检测模型,确定所述待检测网站是否为钓鱼网站。
2.根据权利要求1所述的检测方法,其特征在于,所述待检测网站的信息包括:待检测网站的域名、待检测网站的备案号、待检测网站对应的国家、待检测网站的图标对应的字符串;所述多个非钓鱼网站的信息包括:非钓鱼网站的域名、非钓鱼网站的备案号、非钓鱼网站的图标对应的字符串;所述根据所述待检测网站的信息和预设的白名单和白名单规则确定所述待检测网站是否为钓鱼网站,包括:
判断所述白名单中是否存在所述待检测网站的域名的匹配域名,若存在,则确定所述待检测网站为非钓鱼网站;或者,
判断所述白名单中是否存在所述待检测网站的图标对应的字符串的匹配字符串,若存在,且所述待检测网站的域名与第一目标非钓鱼网站的域名相同,则确定所述待检测网站为非钓鱼网站;所述第一目标非钓鱼网站为所述匹配字符串对应的非钓鱼网站;或者,
判断所述白名单中是否存在所述待检测网站的备案号的匹配备案号,若存在,且所述待检测网站的域名与第二目标非钓鱼网站的域名相同,则确定所述待检测网站为非钓鱼网站;所述第二目标非钓鱼网站为所述匹配备案号对应的非钓鱼网站;或者,
判断所述待检测网站对应的国家是否为预设国家,若是,则所述待检测网站为非钓鱼网站。
3.根据权利要求1所述的检测方法,其特征在于,所述预设的黑名单规则用于指示钓鱼网站的多项特征;所述根据预设的黑名单规则确定所述待检测网站是否为钓鱼网站,包括:
若基于所述待检测网站的信息确定所述待检测网站满足所述钓鱼网站的多项特征中的任意一项特征,确定所述待检测网站为钓鱼网站;
其中,所述钓鱼网站的多项特征包括:钓鱼网站的源码中包括的指定字段、钓鱼网站的域名的代码解码后包含的网站的名字、钓鱼网站的预设链接指向的网站、钓鱼网站的源码中包括的备案号、钓鱼网站的源码的编码字段的长度。
4.根据权利要求1所述的检测方法,其特征在于,所述域名特征包括:
域名长度、重复字母的占比、元音字母的占比、数字占比、熵、连贯数字占比、可读性概率、在正常域名中的出现次数和钓鱼域名中的出现次数之比、转移概率平均值和方差。
5.根据权利要求1所述的检测方法,其特征在于,所述根据所述域名特征和预先训练好的第一检测模型,确定第一待检测特征,包括:
将所述域名特征输入所述预先训练好的第一检测模型中,获得所述预先训练好的第一检测模型输出的恶意域名概率;所述恶意域名概率为所述第一待检测特征。
6.根据权利要求1所述的检测方法,其特征在于,所述第二待检测特征包括:
url的长度;host的长度;html长度;cookie key-value对的数目;html源码中16进制或者unicode代码长度;js中最长字符串长度;css中样式命名是否有异常;url中是否包含IP、或者ip采用8进制、16进制;url是否采用tiny url;url中是否包含@符号;是否使用//进行重定向;域名层级;域名的过期时间;域名注册的月数;favicon是否与本域名是否一致;url中是否包含两个http/htpps;请求url中外链占比;锚链接数;Meta、Script、Link链接标签数;提交表单地址与域名不一致的数量;是否提交信息到email;IFrame重定向数量;在指定网站中查询到的所述待检测网站的域名的相关信息的条数;自定义状态栏;是否包含禁用右键;是否使用弹窗;与所述待检测网站的域名不相关的预设标签的个数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海斗象信息科技有限公司,未经上海斗象信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111245483.8/1.html,转载请声明来源钻瓜专利网。