[发明专利]一种基于自动特征抽取的恶意URL检测系统及其方法有效
申请号: | 201810563850.0 | 申请日: | 2018-06-04 |
公开(公告)号: | CN109005145B | 公开(公告)日: | 2021-01-01 |
发明(设计)人: | 邹福泰;沈展;沈倩颖;马诗慧;吴越;齐开悦 | 申请(专利权)人: | 上海交通大学 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G06F21/56;G06F16/955;G06F16/35;G06N3/02 |
代理公司: | 上海旭诚知识产权代理有限公司 31220 | 代理人: | 郑立 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自动 特征 抽取 恶意 url 检测 系统 及其 方法 | ||
1.一种基于自动特征抽取的恶意URL检测系统,其特征在于,包括预处理模块、并行学习模块和检测分类模块;
其中,所述预处理模块包括URL结构信息预处理、文本信息预处理和图像信息预处理,是将网页URL作为输入,经过预处理之后,将预处理提取的URL结构化特征、网页文本内容和结构特征以及图像特征分别转化成三个包含特征向量的数字矩阵,并输出给所述并行学习模块;
所述并行学习模块包括三种不同的深度卷积网络,分别为n-gram卷积网络、文本卷积神经网络TextCNN和图像卷积网络,所述n-gram卷积网络对包含所述URL结构化特征的数字矩阵进行处理,所述文本卷积神经网络TextCNN对包含所述网页文本内容和结构特征的数字矩阵进行处理,所述图像卷积网络对包含所述图像特征的数字矩阵进行处理;处理结束之后,分别得到三个概率矩阵,并把所述三个概率矩阵输出给所述检测分类模块;
所述检测分类模块包括一个全连接神经网络,输入的所述三个概率矩阵经过所述全连接神经网络的进一步综合处理,给出最终的分类结果以及评估报告;
所述综合处理是输入的所述三个概率矩阵经过所述全连接神经网络进行集中的学习。
2.如权利要求1所述的基于自动特征抽取的恶意URL检测系统,其特征在于,所述URL结构信息预处理、所述文本信息预处理和所述图像信息预处理三者之间保持相互独立。
3.如权利要求1所述的基于自动特征抽取的恶意URL检测系统,其特征在于,所述n-gram卷积网络、所述TextCNN和所述图像卷积网络是三种独立的不同算法的深度学习网络。
4.如权利要求1所述的基于自动特征抽取的恶意URL检测系统,其特征在于,在所述全连接神经网络的进一步综合处理过程中,还要整合URL的Whois信息。
5.如权利要求1所述的基于自动特征抽取的恶意URL检测系统,其特征在于,在所述全连接神经网络的进一步综合处理过程中,是通过softmax层对结果进行输出。
6.一种基于自动特征抽取的恶意URL检测方法,其特征在于,所述方法包括以下步骤:
步骤1、通过输入的网页URL获取URL结构信息、网页文本信息和网页图像信息,对获得的所述URL结构信息、所述网页文本信息和所述网页图像信息进行预处理,从中分别提取URL结构化特征、网页文本内容和结构特征以及图像特征;
步骤2、将提取的所述URL结构化特征、所述网页文本内容和结构特征以及所述图像特征分别转化成三个包含特征向量的数字矩阵,并输出给并行学习模块;
步骤3、在所述并行学习模块中,使用三种不同的深度卷积网络,分别为n-gram卷积网络、文本卷积神经网络TextCNN和图像卷积网络,对所述三个包含特征向量的数字矩阵进行处理,输出三个相应的概率矩阵;所述n-gram卷积网络对包含所述URL结构化特征的数字矩阵进行处理,所述文本卷积神经网络TextCNN对包含所述网页文本内容和结构特征的数字矩阵进行处理,所述图像卷积网络对包含所述图像特征的数字矩阵进行处理;处理结束之后,所述并行学习模块把所述三个相应的概率矩阵输出给检测分类模块;
步骤4、在所述检测分类模块,输入的所述三个相应的概率矩阵经过全连接神经网络的进一步综合处理,给出最终的网页分类结果以及评估报告;
所述综合处理是输入的所述三个相应的概率矩阵经过所述全连接神经网络进行集中的学习。
7.如权利要求6所述的基于自动特征抽取的恶意URL检测方法,其特征在于,所述步骤1还包括:
步骤1.1、通过输入的所述网页URL访问网页,获得网页源码,从中获得所述文本信息;
步骤1.2、对所述网页源码进行解析,获得所述网页的图片信息;
步骤1.3、对所述文本信息进行字符串过滤,把所述图片信息裁剪成合适的大小,提取所述URL结构化特征、所述网页文本内容和结构特征以及所述图像特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810563850.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种身份认证方法、设备、介质和系统
- 下一篇:一种获取账号信息的方法及网关