[发明专利]基于机器学习的钓鱼网页检测方法在审
申请号: | 201910705624.6 | 申请日: | 2019-08-01 |
公开(公告)号: | CN110572359A | 公开(公告)日: | 2019-12-13 |
发明(设计)人: | 范如;范渊 | 申请(专利权)人: | 杭州安恒信息技术股份有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G06F16/955;G06F16/958 |
代理公司: | 33212 杭州中成专利事务所有限公司 | 代理人: | 金祺;周世骏 |
地址: | 310051 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 钓鱼网页检测 钓鱼网页 合法网页 检测 基于机器 逻辑回归 网页 算法 分类算法 判断步骤 网页过滤 网页特征 有效减少 构建 集合 学习 | ||
1.基于机器学习的钓鱼网页检测方法,其特征在于:包括以下步骤:
S1、判断待测网页是否为合法网页,如不是,执行步骤S2;
S2、提取步骤S1所得网页的URL;
以非字母、非数字但不包括“_”和“-”的字符号切分URL,得到经切分后的URL的词汇集合;
若在URL路径词汇中存在钓鱼攻击目标词,同时该钓鱼攻击目标词与该URL的各级域名标签均不相同,则判定该网页为钓鱼网页;
若同一字符串中存在两个及两个以上不同的钓鱼攻击目标词,则判定该网页为钓鱼网页;
若经切分后的URL的词汇集合中并不存在钓鱼攻击目标词,但忽略字符串内部的数字字符后,若可发现钓鱼攻击目标词,则判定该网页为钓鱼网页;
若经切分后的URL的词汇集合并不存在钓鱼攻击目标词,然后忽略字符串内部的数字字符后也未发现钓鱼攻击目标词,则重新切分,新的URL词汇集合中发现钓鱼攻击目标词或钓鱼攻击目标词字符串子串,则判定该网页为钓鱼网页;
如果未判定为钓鱼网页,执行步骤S3;
S3、基于逻辑回归算法的钓鱼网页检测方法,判断步骤2得到网页是合法网页还是钓鱼网页。
2.根据权利要求1所述的基于机器学习的钓鱼网页检测方法,其特征在于:
步骤2中,在经切分后的URL的词汇集合不存在钓鱼攻击目标词,然后忽略字符串内部的数字字符后也未发现钓鱼攻击目标词时的重新切分方法为:
URL以“/”和“\”作为分割符号切分,而后再以在任意非字母、非数字符号切分,同时忽略各部分内的顶级域名词汇;之后,将每部分中索引位置相邻的字符合并,组成新的URL词汇集合;若新的URL词汇集合中发现钓鱼攻击目标词或钓鱼攻击目标词字符串子串,则判定该网页为钓鱼网页。
3.根据权利要求2所述的基于机器学习的钓鱼网页检测方法,其特征在于:
步骤3为:提取步骤2得到网页的特征,基于逻辑回归算法的通过特征判断步骤2得到网页是合法网页还是钓鱼网页。
4.根据权利要求3所述的基于机器学习的钓鱼网页检测方法,其特征在于:
特征包括DNS质疑度属性、HTML标签属性、URL的字符特征、URL中的路径与钓鱼词汇的相似度和Whois特征。
5.根据权利要求4所述的基于机器学习的钓鱼网页检测方法,其特征在于:
DNS质疑度属性包括DNS质疑度、网页的IP个数、IP、IP子网、自治系统号、IP所在国家是否在黑名单中、RETRY值、TTL值、REFRESH值和EXPIRE值特征;
HTML标签属性包括该页面是否会进行重定向、重定向跳转后的网页是否跟待测网页是同一个域名、待测网页<a>标签href属性链接中使用https协议的链接占总的<a>标签中链接的比例、待测网页中<link>标签href属性链接使用https协议的比例、<a>标签中带“#”的标签数量占总的<a>标签的比例、<link>标签中“#”的标签数量占总的<link>标签数量的比例、网页中与原URL域名不同的链接占总的<a>标签链接数的比例、网页中与原URL域名不同的链接占总的<link>标签链接数的比例、网页中<a>标签平均dot数量、网页中<link>标签的平均dot数量;<a>标签中存在“@”的链接平均数量和<link>标签中存在“@”的链接平均数量;
URL的字符特征包括域名、路径、文件和参数的长度、最长词汇长度、“-”或“_”符号个数以及点数的特征信息;
Whois特征包括网页注册、更新、过期时间、是否为私人注册、IP是否会锁定、注册机构、注册人、IP所在子网、IP所在国家或地区、IP自治系统号是否存在于已知的黑名单列表中。
6.根据权利要求5所述的基于机器学习的钓鱼网页检测方法,其特征在于:
待检测的URL与钓鱼类词汇的相近度Fsim的计算公式为:
其中,JMj表示钓鱼类词汇与URL词汇集合中的第j个词的Jaccard相似度,n表示钓鱼类词汇集合中元素的个数,k表示待检测网页的URL以模式1切分后产生的URL词汇集合所具有的元素数量;Aj表示URL词汇集合中的第j个词,Bj表示钓鱼类词汇集合中的第j个词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术股份有限公司,未经杭州安恒信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910705624.6/1.html,转载请声明来源钻瓜专利网。