[发明专利]一种基于知识图谱的web日志异常行为识别方法在审
申请号: | 202111637283.7 | 申请日: | 2021-12-29 |
公开(公告)号: | CN114328962A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 张仰森;黄改娟;段瑞雪;陈若愚;胡昌秀 | 申请(专利权)人: | 北京信息科技大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F16/951;G06F16/955;G06F16/958;G06F40/258;G06F40/279 |
代理公司: | 北京众允专利代理有限公司 11803 | 代理人: | 张争艳 |
地址: | 100192 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识 图谱 web 日志 异常 行为 识别 方法 | ||
1.一种基于知识图谱的web日志异常行为的识别方法,其特征在于:包括如下步骤,
S1多源数据采集及相应领域知识库的构建
应用域名解析、权威域名服务器、别名解析、自治系统的方法设计基于aiohttp和dig技术相结合的自动化爬虫模型,构建相应的领域知识库;
S2知识图谱原型设计及知识图谱的构建
基于S1的领域知识库设计面向域名解析系统的知识图谱原型并进行知识图谱的构建;
S3 web日志异常行为识别模型的构建
基于S2构建的知识图谱辅助完成web日志异常行为识别模型的构建。
2.根据权利要求1所述的一种基于知识图谱的web日志异常行为的识别方法,其特征在于:
S1多源数据采集及相应领域知识库的构建中,首先,基于域名解析、权威域名服务器、别名解析、自治系统方法确立各类知识的数据类型;然后,确定各类数据的数据源,依据数据源确定各类知识的表结构,同时为每种知识设计特定的采集方案;最后,将采集到的网页数据依据知识库设计的表规则进行处理、过滤,将非结构化数据转化成结构化数据,并批量存储到相应知识库中。
3.根据权利要求2所述的一种基于知识图谱的web日志异常行为的识别方法,其特征在于:S1中,包括S11网站信息采集和网站分类体系构建;
S12域名信息采集及域名信息知识库构建;
S13 IP信息数据采集及IP信息知识库构建;
S14权威域名服务器信息采集及权威域名服务器知识库构建;
S15 ASN信息采集及ASN信息知识库构建;
其中,S11包括S111网站基本属性信息采集,
其中网站的标题、描述、关键词的采集数据来自StuffGate网站,采集流程为,
S1111依据域名数量,设置可执行线程数;
S1112依据域名设置请求URL;
S1113设置IP代理池,并设置随机sleep时间;
S1114从UserAgent数据池中随机抽取UA信息,模拟浏览器请求网页;
S1115分析网页数据,制定域名各个属性参数的解析策略;
S1116将获得的域名属性信息进行封装处理;
S1117循环S1112-S1116,采用executemany方式每处理完1k域名进行入库;
针对Alexa排名获取过程中,基于aiohttp的异步爬虫框架,通过引入IP代理池、伪造登陆口令获取cookie信息、设置随机sleep时间;
网站所属国家信息采集的方案流程为
S111A依据域名数量及可执行线程数量大小设置线程处理域名长度(域名数量/线程数量),降低数据的爬取时间;
S111B利用爬虫技术获取站长之家和阿里的whois信息;
S111C对比两者的国家信息,若一致,则存入结果集,处理下一个网站;反之,则执行S111D;
S111D获取alexa.com提供的网站主要访问地理位置,矫正结果,存入结果集,处理下一个网站
还包括S112网站分类体系构建,其包括,
S1121数据预处理:采用百度翻译API接口对网站基本信息属性中的网站标题、描述、关键词进行批量转化;
S1122数据标注:采用人工方式对一批网站进行网站类型标注;
S1123分词处理:
利用jieba分词技术对网站的标题、描述信息、关键词拼接构成的语句进行分词,得到分词文本;
S1124模型训练:使用分词后的有标签文本作为训练集进行训练,先对文本进行向量空间表示,得到每一个连接文本的向量空间表示,然后使用逻辑回归模型对基于特征表示的文本向量进行分类;
S1125网站标签预测:使用训练好的模型进行无标签文本分类;
基于S111和S112的处理,完成网站信息知识库的构建;
其中,S12域名信息采集及域名信息知识库构建包括,
S121依据域名数量,设置可执行线程数;
S122依据域名设置请求URL;
S123设置IP代理池,并设置随机sleep时间;
S124从UserAgent数据池中随机抽取UA信息,模拟浏览器请求网页;
S125分析网页数据,制定域名各个属性参数的解析策略;
S126将获得的域名属性信息进行封装处理;
S127循环S122-S126,采用executemany方式每处理完1k域名进行入库;
同时以这批域名数据为基础,依据域名解析的原理,构建一张域名与IP关联表;最终,域名信息知识库构建完成;
S13 IP信息数据采集及IP信息知识库构建中,
以域名信息知识库为基础,依据域名解析的原理,采用dig命令获取域名映射的IP集合,在dig查询过程中引入TCP协议解DNS污染,获得IP集合;
IP属性信息获取流程为,
S131依据IP数量,设置可执行线程数;
S132依据IP设置请求URL;
S133设置IP代理池,并设置随机sleep时间;
S134从UserAgent数据池中随机抽取UA信息,模拟浏览器请求网页;
S135分析网页数据,制定域名各个属性参数的解析策略;
S136将获得的IP属性信息进行封装处理;
S137循环S132-S136,采用executemany方式每处理完1k的IP集合进行入库;
最终,IP信息知识库构建完成;
S14权威域名服务器信息采集及权威域名服务器知识库构建中,
基于域名信息知识库得到的权威域名服务器进行采集,选用dig命令的方式去获取权威域名服务器的相关IP信息;
S15 ASN信息采集及ASN信息知识库构建中,
ASN信息采集包括,
ASN采集
Step1以239个地区名为单元,设置请求URL;
Step2依据whois.ipip.net网站页面样式设计采集策略;
Step3将采集各个地区的ASN信息批量入库
ASN属性信息采集
Step1依据ASN设置请求URL;
Step2分析页面结构,设计采集策略;
Step3将获取的ASN信息进行封装;
Step4采用executemany方式完成入库操作;
CIDR属性信息采集
Setp1基于采集到的ASN,进行下钻分析,获取ASN对于的CIDR;
Setp2依据ASN设置请求URL;
Step3分析对应CIDR所在页面的样式,设计采集策略。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学,未经北京信息科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111637283.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种法式烤鸡及其制备方法
- 下一篇:一种实验室流水线设备及样本管夹持装置