[发明专利]一种基于自动特征抽取的恶意URL检测系统及其方法有效

申请号：	201810563850.0	申请日：	2018-06-04
公开（公告）号：	CN109005145B	公开（公告）日：	2021-01-01
发明（设计）人：	邹福泰;沈展;沈倩颖;马诗慧;吴越;齐开悦	申请（专利权）人：	上海交通大学
主分类号：	H04L29/06	分类号：	H04L29/06;G06F21/56;G06F16/955;G06F16/35;G06N3/02
代理公司：	上海旭诚知识产权代理有限公司 31220	代理人：	郑立
地址：	200240 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于自动特征抽取恶意 url 检测系统及其方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于自动特征抽取的恶意URL检测系统及其方法，涉及恶意URL检测领域，所述恶意URL检测系统包括：预处理模块，并行学习模块以及检测分类模块。所述预处理模块将网页URL作为输入，将预处理提取的URL结构化特征、网页文本内容和结构特征、以及图像特征分别转化成三个包含特征向量的数字矩阵；所述并行学习模块使用了三种独立的不同算法的深度学习网络，对三个所述数字矩阵进行处理，得到三个概率矩阵。所述检测分类模块通过将上述的三个概率矩阵输入到一个全连接网络进一步处理，给出最终的分类结果。本发明将文本和图像的深度学习模型与恶意URL检测相结合，综合提取了网页的各种信息，提高了该检测方法的适用范围和准确性。

技术领域

本发明涉及恶意URL检测领域，尤其涉及一种基于自动特征抽取的恶意URL检测系统及其方法。

背景技术

随着互联网的迅速发展以及网络业务的不断扩大，互联网的网页规模呈现“基数大、增长快、更新频繁”的发展趋势。以中国为例，如《中国互联网站发展状况及其安全报告(2017)》指出，截至2016年12月，中国网站数量为482万个，年增长14.1％。丰富的互联网服务，一方面极大改善了人们的日常生活；另一方面，也给一些网络攻击行为(包括钓鱼网页、网页木马等)提供了广阔的发展空间。这些网络攻击行为常常围绕网页展开，或者设计陷阱或者挖掘漏洞，利用各种攻击技术对人们的网络安全构成严重威胁。尤其是在近年来，互联网支付技术不断普及的背景下，会主动窃取用户信息的恶意网站所造成经济损失就更加巨大，带来的社会影响也更为严重。卡巴斯基实验室的产品在2016年间识别出2.62亿恶意URL链接，全球的在线攻击数量达到7.58亿次，其中有三分之一(29％)的攻击源自美国，17％源自荷兰。当前，随着互联网的蓬勃发展，网络攻击不断增多，恶意URL规模持续扩大，网络安全形势日益严峻。

目前，检测恶意URL最常见方法是黑名单技术。黑名单技术的核心是一个已被证实的恶意URL数据库。由于技术原理简单，查询开销很低，黑名单技术容易实现且速度很快。此外，这种技术具有非常低的假阳性率。然而，攻击者可使用多种手段来避开黑名单。该技术还有一个致命的弱点，即无法很好地应对新生成的恶意URL。同时由于URL资源众多、URL数据集不均匀、恶意URL逃逸技术升级等均会使URL的检测效果大打折扣。如今，传统方法日益暴露出准确率不高、内存占用过大、数据集适应性差等缺陷。一些PC端的浏览器和各种主动防御软件都会提供恶意URL检测和拦截功能，但它们本质上基本还是依靠黑名单技术等。深度学习新技术虽然已经被广泛研究，但还是没有普及到实际的URL检测软件中去。

因此，本领域的技术人员致力于开发一种更加准确并且可以应对新生成的恶意URL的检测技术。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是如何通过准确检测出恶意URL，能够给出分类，并能适用于新生成的网页。

为实现上述目的，本发明提供了一种基于自动特征抽取的恶意URL检测系统，包括预处理模块、并行学习模块和检测分类模块；

其中，所述预处理模块包括URL结构信息预处理、文本信息预处理、图像信息预处理，是将网页URL作为输入，经过预处理之后，将预处理提取的URL结构化特征、网页文本内容和结构特征、以及图像特征分别转化成三个包含特征向量的数字矩阵，并输出给所述并行学习模块；

所述并行学习模块包括三种不同的深度卷积网络，分别为n-gram卷积网络、TextCNN和图像卷积网络，所述n-gram卷积网络对包含所述URL结构化特征的数字矩阵进行处理，所述TextCNN对包含所述网页文本内容和结构特征的数字矩阵进行处理，所述图像卷积网络对包含所述图像特征的数字矩阵进行处理；处理结束之后，分别得到三个概率矩阵，并把所述三个概率矩阵输出给所述检测分类模块；

所述检测分类模块包括一个全连接神经网络，所述输入的三个概率矩阵经过所述全连接神经网络的进一步综合处理，给出最终的分类结果以及评估报告。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海交通大学，未经上海交通大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810563850.0/2.html，转载请声明来源钻瓜专利网。

上一篇：一种身份认证方法、设备、介质和系统
下一篇：一种获取账号信息的方法及网关

同类专利

专利分类

H 电学

H04 电通信技术
H04L 数字信息的传输，例如电报通信
H04L29-00 H04L 1/00至H04L 27/00单个组中不包含的装置、设备、电路和系统
H04L29-02 .通信控制；通信处理
H04L29-12 .以数据终端为特征的
H04L29-14 .故障的应对措施
H04L29-04 ..用于多条通信线路的
H04L29-06 ..以协议为特征的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于自动特征抽取的恶意URL检测系统及其方法有效

专利文献下载