[发明专利]网页内容安全实时监测方法有效
申请号: | 201710184519.3 | 申请日: | 2017-03-24 |
公开(公告)号: | CN107092826B | 公开(公告)日: | 2020-02-21 |
发明(设计)人: | 姜强 | 申请(专利权)人: | 北京国舜科技股份有限公司 |
主分类号: | G06F21/56 | 分类号: | G06F21/56;G06F16/953;G06F16/951;G06F16/955;H04L29/08 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王庆龙 |
地址: | 100083 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 内容 安全 实时 监测 方法 | ||
1.网页内容安全实时监测系统,其特征在于,包括任务调度模块、监控模块、分析引擎模块;
任务调度模块、监控模块部署于分布式系统的一个第一节点上;
所述任务调度模块用于将需要抓取的目标网址,以及预设的抓取时间或抓取频率分配给各分析引擎模块;
所述监控模块用于监控分析引擎模块执行分析任务的状态和资源占用情况,以及任务状态和资源占用情况上报任务调度模块;
多个分析引擎模块分别部署在不同的分布式系统的第二节点上;
分析引擎模块用于抓取目标网页,获得网页文件,对网页文件进行安全性分析;
第一节点连接第二节点;
分析引擎模块还用于根据预设的抓取规则获得线索,根据线索提取第一网页文件中的子目标网页地址,根据线索获取第二网页文件;
分析引擎模块还用于对网页文件进行恶意代码分析后,还对网页文件进行暗链分析;
分析引擎模块还用于去除网页文件中的标签注释文本后,分别计算获得的网页文件与对应的安全网页文件的simhash值,计算获得的网页文件的simhash值与安全网页文件之间的的simhash值之间的海明距离,根据海明距离判断网页相似度,若相似,则该获取的网页文件为安全网页;
分析引擎模块还用于比较网页文件与对应的安全网页文件的网页编码、文件类型、数据长度是否一致,若不一致则该网页为存在安全风险的网页。
2.根据权利要求1所述的系统,其特征在于,分析引擎模块还用于根据设置的敏感词构造DFA状态机;对网页文件进行分词,获得字符串;在DFA状态机中遍历查询所有获得的字符串,若在DFA状态机中查找到对应的字符串,则该网页文件包含敏感词。
3.根据权利要求1所述的系统,其特征在于,分析引擎模块还用于将安全性分析获得结果按设定的方式存储;
将分析引擎的分析结果进行统计分析,并将分析结果发送至交互界面显示。
4.网页内容安全实时监测方法,其特征在于,包括步骤:
根据预设的目标网址,以及根据预设的抓取时间或抓取频率,通过部署在分布式系统上的多个网站爬虫工具分别抓取目标网页,获得网页文件;
对网页文件进行安全性分析;
所述网站爬虫工具抓取目标网页,包括步骤:
根据预设的抓取规则获得线索,根据线索提取第一网页文件中的子目标网页地址,根据线索获取第二网页文件;
所述步骤对网页文件进行安全性分析包括,对网页文件进行恶意代码分析后,还对网页文件进行暗链分析;
所述对网页文件进行安全性分析还包括步骤:去除网页文件中的标签注释文本后,分别计算获得的网页文件与对应的安全网页文件的simhash值,计算获得的网页文件的simhash值与安全网页文件之间的的simhash值之间的海明距离,根据海明距离判断网页相似度,若相似,则该获取的网页文件为安全网页;
所述对网页文件进行安全性分析还包括步骤:比较网页文件与对应的安全网页文件的网页编码、文件类型、数据长度是否一致,若不一致则该网页为存在安全风险的网页。
5.根据权利要求4所述的方法,其特征在于,所述对网页文件进行安全性分析还包括步骤,根据设置的敏感词构造DFA状态机;对网页文件进行分词,获得字符串;在DFA状态机中遍历查询所有获得的字符串,若在DFA状态机中查找到对应的字符串,则该网页文件包含敏感词。
6.根据权利要求4所述的方法,其特征在于,在步骤对网页文件进行安全性分析之后,还包括步骤:
将安全性分析获得结果按设定的方式存储;
将分析引擎的分析结果进行统计分析,并将分析结果发送至交互界面显示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国舜科技股份有限公司,未经北京国舜科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710184519.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于管道装配法兰的装置
- 下一篇:一种将软管过盈安装在散热器上的装置
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法