[发明专利]网页页面特征的篡改检测方法及装置在审

申请号：	202010535869.1	申请日：	2020-06-12
公开（公告）号：	CN111797904A	公开（公告）日：	2020-10-20
发明（设计）人：	李子双;肖新光	申请（专利权）人：	哈尔滨安天科技集团股份有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06F16/951;G06F16/955;G06N3/04;G06N3/08
代理公司：	暂无信息	代理人：	暂无信息
地址：	150028 黑龙江省哈尔滨市哈尔滨高新技术***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	网页页面特征篡改检测方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种网页页面特征的篡改检测方法、装置、电子设备及存储介质，该方法包括：获取网页样本数据，建立网页样本数据集文档；从数据集文档中提取文本特征、结构特征和网络特征；挖掘文本特征、结构特征和网络特征之间的非线性关系，进而检测网页页面特征的篡改行为类别。基于深度学习的异构特征分类算法，有效融合文本特征、结构特征和网络特征，更为精准地识别不同种类的网页篡改行为，降低了检测误报率。

技术领域

本发明涉及网络安全技术领域，尤其涉及网页页面特征的篡改检测方法、装置、电子设备及存储介质。

背景技术

目前在网络安全领域，网页篡改检测技术主要分为本地检测技术和远程检测技术两种。本地检测技术是指将检测程序部署在网站服务器上，目前主要有以下几种方法：

使用工具对网页当前数据与历史数据进行对比，提出一种基于内容对比的校园网页防篡改监控系统，将有变动的网页展示给管理员查看；

从操作系统底层调用，以事件为出发点的文件防篡改机制，无须备份网页文件，就可以有效防止网页文件被非法篡改，确保网页健康运行；

基于动态水印技术的鉴别，在用户登录阶段进行校验来判断当前网页是否安全合法；

使用主成分分析法进行分类并规范网页属性，基于此提出针对不同网页的防篡改检测系统规则。

本地检测技术虽然检测结果准确，但是需要单机部署，不适用于大规模检测的场景中。

远程检测技术依赖网络爬虫工作，部署简单，适合大规模监控目标网站，但是误报率较高，目前主要检测研究方法有：

使用静态文本识别技术检测已知类型的网站挂马和暗链植入等恶意行为；

使用机器学习方法识别网页中的暗链，结合了暗链的域名、文本和隐藏结构特征，使用了分类与回归树、梯度提升决策树和随机森林三种方法来构建检测模型；

对脚本攻击行为进行了智能检测，首先使用类图像处理方法对数据进行预处理，再通过词向量方法获取特征，最后使用深度卷积神经网络进行智能识别；

基于网页主视觉区域的结构化文档对钓鱼网站进行检测，再从中提取特征进行分类。

这些研究方法在网页篡改方面进行了有益的探索，但仍存在几个主要问题:(1)使用的训练集过小，考虑的网页篡改类型简单，难以面对复杂多变的篡改行为。(2)使用的方法简单，不能充分挖掘不同特征中的复杂非线性关系，限制了模型的表示能力。(3)由于后两种方法研究对象并不直接匹配，这些方法和所用的数据集并不能直接移植到网页篡改识别工作中。

发明内容

有鉴于此，本发明提供了网页页面特征的篡改检测方法、装置、电子设备及存储介质，以解决或部分解决上述技术问题。

根据本发明的一个方面，提供了一种网页页面特征的篡改检测方法，所述方法包括：

获取网页样本数据，建立网页样本数据集文档；

从所述数据集文档中提取文本特征、结构特征和网络特征；

挖掘所述文本特征、结构特征和网络特征之间的非线性关系，进而检测网页页面特征的篡改行为类别。

可选地，所述获取网页样本数据，建立网页样本数据集文档包括：

使用自动扫描策略获取可能被篡改的网页样本；

对于所述网页样本基于网页被篡改的类型进行标注，建立网页样本数据集文档。

可选地，所述从所述数据集文档中提取文本特征、结构特征和网络特征包括：

以规则方式提取所述数据集文档中的文本，进行自动分词，获得多个词串，从所述词串中抽取文本特征；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。