[发明专利]网页页面特征的篡改检测方法及装置在审
申请号: | 202010535869.1 | 申请日: | 2020-06-12 |
公开(公告)号: | CN111797904A | 公开(公告)日: | 2020-10-20 |
发明(设计)人: | 李子双;肖新光 | 申请(专利权)人: | 哈尔滨安天科技集团股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/951;G06F16/955;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150028 黑龙江省哈尔滨市哈尔滨高新技术*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 页面 特征 篡改 检测 方法 装置 | ||
本发明提供一种网页页面特征的篡改检测方法、装置、电子设备及存储介质,该方法包括:获取网页样本数据,建立网页样本数据集文档;从数据集文档中提取文本特征、结构特征和网络特征;挖掘文本特征、结构特征和网络特征之间的非线性关系,进而检测网页页面特征的篡改行为类别。基于深度学习的异构特征分类算法,有效融合文本特征、结构特征和网络特征,更为精准地识别不同种类的网页篡改行为,降低了检测误报率。
技术领域
本发明涉及网络安全技术领域,尤其涉及网页页面特征的篡改检测方法、装置、电子设备及存储介质。
背景技术
目前在网络安全领域,网页篡改检测技术主要分为本地检测技术和远程检测技术两种。本地检测技术是指将检测程序部署在网站服务器上,目前主要有以下几种方法:
使用工具对网页当前数据与历史数据进行对比,提出一种基于内容对比的校园网页防篡改监控系统,将有变动的网页展示给管理员查看;
从操作系统底层调用,以事件为出发点的文件防篡改机制,无须备份网页文件,就可以有效防止网页文件被非法篡改,确保网页健康运行;
基于动态水印技术的鉴别,在用户登录阶段进行校验来判断当前网页是否安全合法;
使用主成分分析法进行分类并规范网页属性,基于此提出针对不同网页的防篡改检测系统规则。
本地检测技术虽然检测结果准确,但是需要单机部署,不适用于大规模检测的场景中。
远程检测技术依赖网络爬虫工作,部署简单,适合大规模监控目标网站,但是误报率较高,目前主要检测研究方法有:
使用静态文本识别技术检测已知类型的网站挂马和暗链植入等恶意行为;
使用机器学习方法识别网页中的暗链,结合了暗链的域名、文本和隐藏结构特征,使用了分类与回归树、梯度提升决策树和随机森林三种方法来构建检测模型;
对脚本攻击行为进行了智能检测,首先使用类图像处理方法对数据进行预处理,再通过词向量方法获取特征,最后使用深度卷积神经网络进行智能识别;
基于网页主视觉区域的结构化文档对钓鱼网站进行检测,再从中提取特征进行分类。
这些研究方法在网页篡改方面进行了有益的探索,但仍存在几个主要问题:(1)使用的训练集过小,考虑的网页篡改类型简单,难以面对复杂多变的篡改行为。(2)使用的方法简单,不能充分挖掘不同特征中的复杂非线性关系,限制了模型的表示能力。(3)由于后两种方法研究对象并不直接匹配,这些方法和所用的数据集并不能直接移植到网页篡改识别工作中。
发明内容
有鉴于此,本发明提供了网页页面特征的篡改检测方法、装置、电子设备及存储介质,以解决或部分解决上述技术问题。
根据本发明的一个方面,提供了一种网页页面特征的篡改检测方法,所述方法包括:
获取网页样本数据,建立网页样本数据集文档;
从所述数据集文档中提取文本特征、结构特征和网络特征;
挖掘所述文本特征、结构特征和网络特征之间的非线性关系,进而检测网页页面特征的篡改行为类别。
可选地,所述获取网页样本数据,建立网页样本数据集文档包括:
使用自动扫描策略获取可能被篡改的网页样本;
对于所述网页样本基于网页被篡改的类型进行标注,建立网页样本数据集文档。
可选地,所述从所述数据集文档中提取文本特征、结构特征和网络特征包括:
以规则方式提取所述数据集文档中的文本,进行自动分词,获得多个词串,从所述词串中抽取文本特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨安天科技集团股份有限公司,未经哈尔滨安天科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010535869.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种人员及车辆共用消毒房
- 下一篇:多点式旋铆机构