[发明专利]一种基于深度学习的钓鱼网站URL检测方法有效
申请号: | 201810750707.2 | 申请日: | 2018-07-10 |
公开(公告)号: | CN109101552B | 公开(公告)日: | 2022-01-28 |
发明(设计)人: | 杨鹏;曾朋;李幼平;张长江;郑斌 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F16/955 | 分类号: | G06F16/955;G06N3/04 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 李玉平 |
地址: | 211189 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 钓鱼 网站 url 检测 方法 | ||
本发明公开了一种基于深度学习的钓鱼网站URL检测方法,该方法仅根据网站URL就能够实时检测互联网上的钓鱼网站。本发明首先将URL字符串序列编码成one‑hot二维稀疏矩阵,接着转化为稠密字符嵌入矩阵,输入到卷积神经网络中,抽取局部深度特征,然后将卷积神经网络的输出输入到长短期记忆网络,捕获URL序列的前后关联,最后接入softmax模型,对URL分类。本发明能避免繁冗的特征工程,通过卷积神经网络抽取局部深度关联性特征,通过长短期记忆网络学习URL中的长程依赖,能快速、准确地检测出钓鱼网站URL。
技术领域
本发明涉及一种基于深度学习的钓鱼网站URL检测方法,该方法提取URL字符串序列相关特征,利用深度学习方法提高分类准确率,能实时检测互联网上的钓鱼网站,属于网络空间安全技术领域。
背景技术
近年来,随着互联网的飞速发展,互联网体系结构在安全方面所存在不足日渐显露,网络钓鱼、网络犯罪、隐私泄露等各类安全问题越来越突出。没有网络安全就没有国家安全,网络空间安全已经成为世界各国必须共同面对和解决的难题。在各类网络安全问题中,网络钓鱼是一种通过社会工程学或其它复杂技术手段窃取网站用户个人信息的犯罪行为,目前网络钓鱼呈逐年上升趋势。
当前主流钓鱼网站检测方法是基于机器学习的钓鱼网站检测方法,该方法将钓鱼网站检测视为一个二分类或聚类问题,首先根据钓鱼网站的URL结构及页面元素与正常网站的差异性提取特征,然后运用相应的机器学习算法达到钓鱼网站检测和防御的目的。常见的钓鱼特征有URL词汇特征、HTML特征、第三方网站特征等,根据所用特征的不同,又可分为基于URL特征的钓鱼网站检测和基于组合特征的钓鱼网站检测。其中基于URL特征的钓鱼网站检测方法不需要关注钓鱼页面,检测效率高,但不能全面反映URL的特点,准确率不高。
发明内容
发明目的:针对当前日益增多的钓鱼网站和已有基于URL特征的钓鱼网站检测方法准确率不高、漏报率和误报率较高的问题,本发明提出一种基于深度学习的钓鱼网站URL检测方法,首先将输入URL字符串规格化为固定长度,然后通过字符映射表将其转化为One-hot编码序号,接着嵌入层(Embedding Layer)将其转为稠密矩阵作为URL字符序列的特征表示,之后输入到CNN网络抽取局部深度特征,并通过LSTM解决长程依赖问题,最后将LSTM最后一个时刻的输出输入到softmax单元,该方法能实时检测互联网的钓鱼网站,相比传统基于URL特征的钓鱼网站检测方法,不需要手动抽取特征,能全面反映URL特征点,而且能够显著提供钓鱼网站检测准确率。
技术方案:一种基于深度学习的钓鱼网站URL检测方法,该方法涵盖钓鱼网站检测的全过程。该方法主要包括URL字符嵌入表示、CNN-LSTM分类模型和模型训练等过程,能够有效捕获URL字符序列中字符前后的关联和语义信息,有效解决传统基于URL特征的钓鱼网站检测方法不能全面反映钓鱼网站URL特征的问题,并且将卷积神经网络和长短期记忆网络模型应用于钓鱼网站检测,提高检测准确率和减少检测漏报率。该方法主要包括三个步骤,具体如下:
步骤1,URL字符嵌入表示。首先将URL看做字符串序列,从字符层面量化URL,规格化URL,然后将URL字符转换成独热码(one-hot encode),最后通过嵌入(Embedding)层生成二维稠密矩阵即Embedding矩阵。
步骤2,CNN-LSTM分类层Embedding矩阵首先通过CNN卷积层抽取局部关联性特征,接着抽取的局部关联性特征经池化层降低卷积神经网络模型复杂度;然后通过长短期记忆网络LSTM检测池化序列中的语义和长程依赖关系;最后将LSTM最后一个单元的输出到Softmax单元。
步骤3,模型训练。本发明采用交叉熵(Cross Entropy)损失函数,并利用Adam(Adaptive Moment Estimation)即自适应时刻估计算法迭代训练模型,优化损失函数。
有益效果:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810750707.2/2.html,转载请声明来源钻瓜专利网。