[发明专利]一种在网关上的实时恶意网页识别方法及系统有效

申请号：	201910043510.X	申请日：	2019-01-17
公开（公告）号：	CN111447169B	公开（公告）日：	2021-06-08
发明（设计）人：	檀国林;张鹏;郑超	申请（专利权）人：	中国科学院信息工程研究所
主分类号：	H04L29/06	分类号：	H04L29/06;G06F16/9535;G06F16/906
代理公司：	北京君尚知识产权代理有限公司 11200	代理人：	余长江
地址：	100093 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种网关实时恶意网页识别方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种在网关上的实时恶意网页识别方法，包括：采集用户访问网页的流量，从中提取轻量级的恶意网页分类特征；基于这些分类特征，构建实时恶意网页分类模型；将该模型部署到核心网络设备上，以实时预测网页是否为恶意网页。本发明还公开了一种在网关上的实时恶意网页识别系统，包括流量采集模块、分类模型训练模块和预测模块。本发明基于恶意网页在上述特征上存在明显的倾斜分布，采用点分十进制来处理目的IP地址和源IP地址，即以每个IP地址字节作为一项分类特征，实现了在大型网关上快速、实时地识别和过滤恶意网页。

技术领域

本发明涉及计算机网络技术领域，特别涉及一种恶意网页的识别方法及系统。

背景技术

恶意网页是指那些在网页中嵌入恶意代码或者包含非法内容的网页，例如挂马网站、钓鱼网站、成人网站等。在互联网所有流量中，网页流量占到了70％，而其中1/3的网页有可能是不安全的。不法分子可能会利用这些恶意网页盗取用户信息，强行安装恶意软件，甚至是骗取钱财。恶意网页使互联网用户面临成为受害者的巨大风险，因此，识别并过滤恶意网页对于网络监管、网络质量服务管理QoS具有重大的意义，同时为广大互联网用户提供一个良好的上网环境。

传统的恶意网页识别是基于黑名单的方法。通过用户举报或者人工判断来收集恶意网页的URL(Uniform Resource Locator，统一资源定位符)的一个列表。URL是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址；互联网上的每个文件都有一个唯一的URL，它包含的信息指出文件的位置以及浏览器应该怎么处理它。当有一个新的网页来了，则判断该网页的URL是否在黑名单中，如果存在则采取相应的防护措施，否则不采取任何措施。这种方法实现简单，而且效率很高。但是，随着时间的推移，会有越来越多的新的不在黑名单中的恶意网页出现，这种方法不能够识别新出现的恶意网页，因为它不能够穷尽所有的恶意网页。而且，恶意网页的黑名单更新比较慢，一些恶意网页通过修改它们的URL的形式来躲避黑名单；与此同时，这些旧的恶意网页URL有可能会指向非恶意网页，这就使得黑名单方法有很高的误报率。

由于黑名单方法存在这些缺点，研究者们提出基于机器学习的方法来识别恶意网页。机器学习方法中恶意网页的识别被看作是一个二分类预测，采集能够代表恶意网页的特征数据作为训练集，根据这些训练集训练出一个机器学习模型——分类器。当有新的代表网页的特征数据到来时，分类器预测为有害的或者无害的。

以往的基于机器学习的恶意网页识别工作，主要是以网页的URL和内容来构造特征，URL特征包括URL长度、域名的长度、以及URL的词集模型等等，这种构造特征的方法比较直接、单一。其中，域名是指由一串用点分隔的名字组成的Internet上某一台计算机或计算机组的名称，用于在数据传输时标识计算机的电子方位(有时也指地理位置，地理上的域名，指代有行政自主权的一个地方区域)。基于内容的构造的特征需要先访问网页的URL获取网页内容，从而获得网页中恶意代码动态执行特点，这种方法构造特征比较丰富，但是需要去访问每一个网页，存在时间延迟，而且可能存在安全问题。因此这些方法不适合在网关上进行恶意网页过滤。在目前的恶意网页识别中，机器学习算法传统上通常采用基于URL的词袋模型作为特征向量，或者采用基于网页内容的信息作为特征。词袋模型，最早出现在自然语言处理和信息检索领域，该模型忽略掉文本的语法和语序等要素，将其仅仅看作是若干个词汇的集合，文档中每个单词的出现都是独立的。词袋模型使用一组无序的单词来表达一段文字或一个文档。基于URL词袋模型的特征空间通常非常大，因此训练时间和预测时间都很大，不适合实时的恶意URL检测。基于网页内容的特征在采集的时候存在极大的安全风险，因为需要事先将整个网页内容下载下来，这样恶意代码可能已经执行了。

发明内容

针对上述现有技术问题，本发明提供了一种在网关上识别恶意网页，而不是传统的在客户端上识别恶意网页的方法。

本发明的在网关上的实时恶意网页识别方法，包括以下步骤：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所，未经中国科学院信息工程研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910043510.X/2.html，转载请声明来源钻瓜专利网。

上一篇：一种调控上行链路发射功率的方法和设备
下一篇：一种滤波器

同类专利

专利分类

H 电学

H04 电通信技术
H04L 数字信息的传输，例如电报通信
H04L29-00 H04L 1/00至H04L 27/00单个组中不包含的装置、设备、电路和系统
H04L29-02 .通信控制；通信处理
H04L29-12 .以数据终端为特征的
H04L29-14 .故障的应对措施
H04L29-04 ..用于多条通信线路的
H04L29-06 ..以协议为特征的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种在网关上的实时恶意网页识别方法及系统有效

专利文献下载