[发明专利]网络犯罪平台识别方法、系统、设备和计算机存储介质在审
申请号: | 202110781281.9 | 申请日: | 2021-07-10 |
公开(公告)号: | CN113407886A | 公开(公告)日: | 2021-09-17 |
发明(设计)人: | 李辉;谭健铸;郭伟 | 申请(专利权)人: | 广州数智网络科技有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/955;G06N20/00;H04L29/06 |
代理公司: | 北京科家知识产权代理事务所(普通合伙) 11427 | 代理人: | 钟斌 |
地址: | 510000 广东省广州市南沙区南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络 犯罪 平台 识别 方法 系统 设备 计算机 存储 介质 | ||
1.一种网络犯罪平台识别方法,其特征在于,包括以下操作步骤:
步骤S101,通过抽样镜像互联网中部分网络流量,捕获镜像出口的数据包并进行协议解析,还原真实网站信息,具体为通过抽样镜像互联网中部分网络流量,利用网络抓包嗅探技术捕获镜像来的流量,然后对这些流量会话重组,接着进行深度网络数据包解析,分析网站协议并还原出流量中网站的真实信息;
步骤S102,收集网络犯罪平台词汇尤其是新型网络犯罪平台高频词汇并整理成库,收集互联网中合法域名信息,通过对新型网络犯罪平台中高频出现的词汇收集和合法域名收集,经过人工审查确认后,形成黑名单词汇库和域名白名单库;
步骤S103,通过收集的网络犯罪高频词汇、合法域名对网站进行过滤,把过滤合法域名后命中网络犯罪词汇的数据打上疑似网络犯罪平台标签,具体为把还原的网站内容信息与收集的词汇数据集进行匹配,对内容匹配命中的网站域名进行白名单过滤,对过滤后的域名打上疑似网络犯罪标签并进行保留,并留存疑似网络犯罪平台的所有访问记录;
步骤S104,将留存的数据,进行特征提取并打上网络犯罪类型标签,选取适合的深度学习模型进行数据建模,具体为利用留存的疑似网络犯罪平台访问记录数据人工刷选、打标,采用特征向量提取算法进行特征向量的提取,形成深度学习训练的数据集,最后选用适合的深度学习算法进行数据建模;
步骤S105,根据识别模型对疑似网络犯罪平台进行识别,通过模型识别结果,确定犯罪平台网站类型。
2.根据权利要求1所述的一种网络犯罪平台识别方法,其特征在于,在步骤S101中,镜像互联网上的数据流量,可以是数据中心机房网络流量、城域网网络流量、电信运营商网络流量,而抽样则是指对互联网中的数据流量进行部分随机选择。
3.根据权利要求1所述的一种网络犯罪平台识别方法,其特征在于,在步骤S102中,新型网络犯罪平台高频词汇的收集主要来源非法网站举报的网络犯罪平台、非法网站广告、不良信息推广渠道(如论坛、QQ)等多个数据源,合法域名主要来源于互联网数据中心系统。
4.根据权利要求1所述的一种网络犯罪平台识别方法,其特征在于,在步骤S103中,对网站过滤主要采用正则表达式匹配的方式,对命中黑名单词汇库的数据需要进行保留,对命中白名单域名的数据需要去除,同时把过滤后的域名数据打上疑似网络犯罪平台标签。
5.根据权利要求1所述的一种网络犯罪平台识别方法,其特征在于,在步骤S104中,特征向量为网站识别的特征,包括但不限于URL特征、网络拓扑特征、页面属性特征、页面内容特征、页面文本特征、网站图片特征和网站设备特征。
6.根据权利要求1所述一种用于执行该网络犯罪平台识别方法的系统,其特征在于,包括网络报文捕获解析模块、信息收集模块、数据建模模块和网络犯罪识别模块,其中:
网络报文捕获解析模块,用于还原镜像的网络流量,通过会话跟踪还原、深度报文解析,还原网站真实访问信息;
信息收集模块,用于收集网络犯罪平台词汇尤其是新型网络犯罪高频词汇,收集互联网合法域名;
数据建模模块,用于建立网络犯罪的识别模型,利用疑似数据人工过滤、犯罪类型打标,通过特征向量提取算法进行特征向量提取;选取适合的深度学习模型进行数据训练、算法调优,最终建立识别模型;
网络犯罪识别模块,用于通过识别模型对疑似网络犯罪平台进行识别,判断最终网络犯罪平台类型。
7.根据权利要求1所述一种满足于该网络犯罪平台识别方法的识别设备与计算机存储介质,其特征在于,计算机存储介质上存储有计算机程序指令与程序指令执行时所需的数据;识别设备包括处理器及电可擦除存储器、以及网络通信模块,处理器执行前加载计算机存储介质中的程序指令和数据到电可擦除存储器,网络通信模块用于设备与其他设备进行网络通信,处理器执行计算机程序指令和数据时实现识别方法中S101-S105任意一项网络犯罪平台识别的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州数智网络科技有限公司,未经广州数智网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110781281.9/1.html,转载请声明来源钻瓜专利网。