[发明专利]一种基于深度学习的层次化钓鱼网站检测方法有效
申请号: | 201910886251.7 | 申请日: | 2019-09-19 |
公开(公告)号: | CN110602113B | 公开(公告)日: | 2021-05-25 |
发明(设计)人: | 温武少;黄永杰;秦景辉 | 申请(专利权)人: | 中山大学 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G06K9/62;G06N3/04 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 林梅繁 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 层次 钓鱼 网站 检测 方法 | ||
本发明为基于深度学习的层次化钓鱼网站检测方法,该方法结合了URL和网页内容进行钓鱼网站检测,能够自适应地选择使用不同层次的钓鱼检测模块进行快速、准确的钓鱼网站检测。本发明首先对输入的URL进行检测,输出该URL属于钓鱼网站的概率,若所输出的概率大于预设阈值,则判断待检测网站为钓鱼网站,否则下载待检测URL对应的网页,统计所述网页的HTML标签数量,利用HTML标签列表对统计结果进行向量化,根据向量化后的HTML标签序列提取精确的网页内容特征表示,通过全连接层进行分类,得到该URL属于钓鱼网站的概率。
技术领域
本发明涉及网络空间安全技术领域,具体为基于深度学习的层次化钓鱼网站检测方法。
背景技术
网络钓鱼是一种利用社会工程学以及复杂的信息技术来窃取用户隐私的网络攻击手段。攻击者通过发送有迷惑性的电子邮件或其他通讯消息来诱导用户访问事先设计好的钓鱼网站,进而引诱用户泄露其隐私如信用卡账号等数据。随着互联网的快速发展,网络钓鱼攻击技术也变得越来越复杂,对社会经济造成的损失日渐增多,如何快速有效地进行钓鱼网站检测成为了网络空间安全领域中的一个研究热点。
钓鱼网站的检测方法经历了从基于黑白名单的检测,到基于启发式规则的检测,再到当前主流的基于机器学习的检测的演变。得益于其极低的误报率,基于黑白名单的检测方法自发明以来被业界广泛地应用。但是由于基于黑白名单的检测方法具有较高的漏报率,后来研究者提出了基于启发式规则的检测方法。虽然相比于基于黑白名单的检测方法来说,基于启发式规则的检测方法具有较强的泛化能力,可以检测部分未知的钓鱼网站,但是这种方法的自适应性较差,且严重依赖所设计的启发式规则,因此在实施当中容易被攻击者规避。为了增强钓鱼网站检测方法的自适应性,研究者提出了基于机器学习的检测方法:通过从网站的URL、网页内容中提取特征,然后利用机器学习算法来进行网站分类,从而判断该网站是否属于钓鱼网站。但是这种基于机器学习的检测方法的性能严重依赖于手工特征设计的好坏,容易被攻击者规避,其泛化能力仍然不足,难以检测新型的未知钓鱼网站。
于2018年12月28日公开的、公开号为CN109101552A的中国发明专利申请“一种基于深度学习的钓鱼网站URL检测方法”提出了一种针对钓鱼网站URL的检测方案。但该专利仅针对网站URL进行检测,无法满足对短链接(社交软件如微博,会将较长的URL进行压缩,得到一个较短的链接,在用户访问该短链接的时候再重定向到原来的网站中)的检测,这个缺点极大地限制了仅针对钓鱼网站URL进行检测的技术方案的应用场景。
于2018年11月9日公开的、公开号为CN108777674A的中国发明专利申请“一种基于多特征融合的钓鱼网站检测方法”提出了一种利用URL特征和网页内容特征进行钓鱼网站检测的方案。但该方法完成一次钓鱼网站检测需要先提取URL特征、网页内容特征后再利用机器学习算法进行分类,检测速度慢,很难在真实场景下使用。
于2019年3月22日公开的、公开号为CN109510815A的中国发明专利申请“一种基于有监督学习的多级钓鱼网站检测方法及检测系统”提出了一种分级的钓鱼网站检测方案。该专利的问题在于其分类器是通过提取URL和网页内容中的固定特征后利用机器学习算法训练得到的,固定的特征设计容易被攻击者探测,从而被攻击者刻意规避,降低该方法的泛化能力。
发明内容
为了解决现有技术所存在的问题,本发明提供一种检测速度快、准确率高的基于深度学习的层次化钓鱼网站检测方法。相比已有方法,本发明能自动提取待检测网站的有效特征,而非通过特征工程或凭借经验人为地选择固定特征,从而提高了对未知钓鱼网站的检测能力,实现对未知钓鱼网站的实时检测。
根据本发明的基于深度学习的层次化钓鱼网站检测方法,包括以下步骤:
步骤1、输入待检测网站的URL;
步骤2、对输入的URL进行检测,输出该URL属于钓鱼网站的概率,若所输出的概率大于预设阈值,则进行步骤4,否则进行步骤3;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910886251.7/2.html,转载请声明来源钻瓜专利网。