[发明专利]检测Web页面的方法、装置、设备以及计算机存储介质有效
申请号: | 201811142835.5 | 申请日: | 2018-09-28 |
公开(公告)号: | CN109409091B | 公开(公告)日: | 2021-11-19 |
发明(设计)人: | 林文洲 | 申请(专利权)人: | 深信服科技股份有限公司 |
主分类号: | G06F21/57 | 分类号: | G06F21/57;G06F21/62;G06F40/289;G06F40/242;G06F40/30;H04L29/08 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王仲凯 |
地址: | 518055 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 检测 web 页面 方法 装置 设备 以及 计算机 存储 介质 | ||
本发明公开了一种检测Web页面的方法、装置、设备以及计算机可读存储介质,包括:识别待检测的Web页面数据信息,计算所述Web页面的数据度;判断所述数据度是否大于等于预设数据度阈值;若所述数据度小于所述预设数据度阈值,则判定所述Web页面不为敏感数据页面。本发明所提供的方法、装置、设备以及计算机可读存储介质,可提高Web页面的检测效率以及检测结果的可信度。
技术领域
本发明涉及网络安全技术领域,特别是涉及一种检测Web页面的方法、装置、设备以及计算机可读存储介质。
背景技术
随着互联网的发展,全球信息化程度越来越高,而随之而来的数据安全问题却越来越严重。数据泄露包括个人信息、企业信息和国家机密,黑客利用服务器漏洞获取大批敏感数据加以利用或流动到黑产中,进而威胁到人身财产或国家安全。
现有技术中主要是利用关键词字典匹配结合人工介入确认的方法识别敏感数据。关键词字典匹配方法主要是通过自定义关键词对网络流量进行匹配,如果网络数据与关键词字典匹配成功则认为该网络数据为敏感数据。
利用关键词字典匹配方法对敏感数据进行识别时,识别效果对字典库的完成程度依赖性高,并且在识别过程中很容易受到其他数据的干扰,导致误判;因此利用关键词字典匹配方法识别敏感数据,识别结果的准确率过低。
通过人工识别网络数据中的敏感数据时,识别速度慢,需要投入大量的人力,并且对工作人员的专业素养有一定的要求。且人工识别敏感数据时,每个工作人员对敏感数据的判断依赖人的主观判断意识,每个工作人员的判断标准不同,会导致对敏感数据识别结果的差异化。
综上所述可以看出,如何提高Web页面数据检测的效率是目前有待解决的问题。
发明内容
本发明的目的是提供一种检测Web页面的方法、装置、设备以及计算机可读存储介质,以解决现有技术中对Web页面的敏感数据的识别效率较低的问题。
为解决上述技术问题,本发明提供一种检测Web页面的方法,包括:识别待检测的Web页面数据信息,计算所述Web页面的数据度;判断所述数据度是否大于等于预设数据度阈值;若所述数据度小于所述预设数据度阈值,则判定所述Web页面不为敏感数据页面。
优选地,所述判断所述数据度是否大于等于预设数据度阈值还包括:
若所述数据度大于等于所述预设数据度阈值,则依据预先构建的敏感关键词字典库,查找所述Web页面数据中的敏感关键词;
根据所述敏感关键词在所述Web页面数据中的占比,计算所述Web页面的敏感度;
判断所述敏感度是否大于等于预设敏感度阈值;
若所述敏感度大于等于所述预设敏感度阈值,则判定所述Web页面为敏感数据页面。
优选地,所述依据预先构建的敏感关键词字典库,查找所述Web页面数据中的敏感关键词前还包括:
采集各个行业的敏感关键词形成敏感数据集,根据词频和语义为所述敏感数据集中的各个敏感关键词分配权重;
将权重大于预设权重阈值的敏感关键词进行分类后,构建敏感关键词字典库并为所述敏感关键词字典库中的各个敏感关键词设置语义场景。
优选地,所述依据预先构建的敏感关键词字典库,查找所述Web页面数据中的敏感关键词包括:
对所述Web页面数据进行分割,获得多个数据串,依据预先构建的敏感关键词字典库分别对所述多个数据串进行关键词匹配;
对与所述敏感关键词字典库中的敏感关键词匹配成功的数据串进行语义场景过滤;
过滤所述匹配成功的数据串中不符合语义场景的数据串,将过滤后剩余的数据串作为所述Web页面数据中的敏感关键词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深信服科技股份有限公司,未经深信服科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811142835.5/2.html,转载请声明来源钻瓜专利网。