[发明专利]一种基于混合二叉神经树的恶意URL检测方法在审

专利信息
申请号: 202211588908.X 申请日: 2022-12-09
公开(公告)号: CN116186251A 公开(公告)日: 2023-05-30
发明(设计)人: 许国良;胡郅琪 申请(专利权)人: 重庆邮电大学
主分类号: G06F16/35 分类号: G06F16/35;G06F18/2431;G06F18/2415;G06F18/214;G06F18/25;G06N3/045;G06N3/0464;G06N3/047;G06N3/048;G06N3/084;H04L9/40;G06F21/51
代理公司: 北京同恒源知识产权代理有限公司 11275 代理人: 方钟苑
地址: 400065 *** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 混合 二叉 神经 恶意 url 检测 方法
【说明书】:

发明涉及一种基于混合二叉神经树的恶意URL检测方法,属于信息安全技术领域。该方法包括:获取URL数据并进行预处理及标注;构建URL数据集;构建基于混合二叉神经树的恶意URL检测网络,引入决策树可解释的分支决策机制和神经网络自动提取空间特征的特点,自上而下地将URL局部特征信息的提取、增强和检测拟合在一棵完全二叉树中;使用URL训练集和验证集对网络进行训练,将测试集的待检测URL输入训练好的网络即可检测出URL是否具备恶意属性。本发明依据URL的字符级特征,灵活地将各类功能的神经网络模型融入至决策树模型的各个节点,极大地提升了恶意URL的检测精度。

技术领域

本发明属于信息安全技术领域,涉及自然语言处理、文本挖掘领域,具体涉及一种基于混合二叉神经树的恶意URL检测方法。

背景技术

随着互联网厂商竞相推出更多的新特性和新功能,更多新的漏洞开始出现,攻击者会利用这些漏洞获取利益,比如恶意邮件信息、恶意广告、金融诈骗、恶意软件等。尽管这些事件下的经济或者商业动机并不一致,可能千变万化,但是基本途径都是通过用户访问这些恶意网站,或者在网上搜索或者点击进入相关链接。这些途径有一个共同点就是需要用户的点击、搜索等操作,而这些操作都对应了统一资源定位符(URL)。因此,对恶意URL的检测已成为当务之急。

目前,传统的恶意URL检测是通过使用黑名单列表匹配方法来完成的。但是这种方法存在一个致命的缺陷,那就是恶意URL通常只存在几个小时甚至几分钟,并且恶意URL的数量以指数增长,因此难以实时匹配到有效的恶意URL。作为黑名单方法的拓展,启发式方法能够识别常见的网络攻击,并根据专家经验为各类网络攻击类型分配一个标签。具体地,该方法通过分析网页的执行动态来寻找可疑行为的标签,例如异常进程创建、重复重定向等。但启发式方法仍然需要在受控环境(例如虚拟机)中执行,且非常消耗资源。由于机器学习模型提供了对新的未知URL进行预测的能力,因此逐渐出现了大量使用机器学习模型来检测恶意URL的方法。通过机器学习进行恶意URL检测首先从URL中获取适当的词汇统计特征,然后使用这些特征来训练机器学习预测模型。但基于机器学习的恶意URL检测研究需要经过一个复杂的主观人工特征选择过程,作为URL的特征表示并不是特别令人信服。

近几年开始流行采用深度学习方法进行自动特征提取,并利用这些特征训练神经网络预测模型。基于字符级别的CNN和RNN是神经网络的最小变体,在恶意URL的及时检测上取得了较好的成效。此外,已存在许多基于自然语言处理的恶意网站分类方法,比如采用两种最先进的预训练语言模型BERT和ELECTRA,使得经过微调的预训练语言模型的性能优于使用基于URL的自定义词汇表训练的模型。但是这些先进模型的开发都需要训练大量的算力资源和硬件设备支撑,且非常耗时。对于URL这样的非结构化数据来说,以上的许多神经网络模型仍然只能片面地获取URL的局部空间特征和序列特征,未充分体现神经网络模型的可解释性。因此,如何高效地进行URL信息挖掘并有效地融合多种特征向量信息,成为一个亟待解决的问题。

发明内容

有鉴于此,本发明的目的在于提供一种基于混合二叉神经树的恶意URL检测方法,解决现有深度学习恶意URL检测方法中URL字符级局部特征表示信息不足而导致的检测准确率较低的问题,高效地进行URL信息挖掘并有效地融合多种特征向量信息,实现恶意URL的实时检测,从而提升恶意URL检测的准确性。

为达到上述目的,本发明提供如下技术方案:

一种基于混合二叉神经树的恶意URL检测方法,具体包括以下步骤:

S1:获取URL,标注恶意URL和正常URL,对标注后的URL进行至少包括乱码字符过滤、URL长度一致性规约的预处理;

S2:构建URL数据集,并保证训练集、验证集和测试集中恶意URL和正常URL的比例基本相同;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211588908.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top