[发明专利]网络犯罪平台识别方法、系统、设备和计算机存储介质在审
申请号: | 202110781281.9 | 申请日: | 2021-07-10 |
公开(公告)号: | CN113407886A | 公开(公告)日: | 2021-09-17 |
发明(设计)人: | 李辉;谭健铸;郭伟 | 申请(专利权)人: | 广州数智网络科技有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/955;G06N20/00;H04L29/06 |
代理公司: | 北京科家知识产权代理事务所(普通合伙) 11427 | 代理人: | 钟斌 |
地址: | 510000 广东省广州市南沙区南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络 犯罪 平台 识别 方法 系统 设备 计算机 存储 介质 | ||
本发明公开了网络犯罪平台识别方法、系统、设备和计算机存储介质,通过抽样镜像互联网中部分网络流量,捕获镜像出口的数据包并进行协议解析,还原真实网站信息;收集网络犯罪平台词汇尤其是新型网络犯罪平台高频词汇并整理成库,收集互联网中合法域名信息;通过收集的网络犯罪高频词汇、合法域名对网站进行过滤,把过滤合法域名后命中网络犯罪词汇的数据打上疑似网络犯罪平台标签,并留存疑似网络犯罪平台的所有访问记录;将留存的数据,进行特征提取并打上网络犯罪类型标签,选取适合的深度学习模型进行数据建模;根据识别模型对疑似网络犯罪平台进行识别,通过模型识别结果,确定犯罪平台网站类型,实现了对网络违法犯罪网站识别。
技术领域
本发明涉及信息技术领域,具体为网络犯罪平台识别方法、系统、设备和计算机存储介质。
背景技术
目前已有异常网站检测技术,提前预置异常网站和正常网站的域名,判断待检测的网站在已预置的正常域名中,通过提取待监测网站特征文本,与预置的合法网站对应特征元素的相似度和预设阈值进行判断网站是否合法。但是,这种检测技术存在着很大的不足,包括:(1)该类方法对没有提前预置异常特征的网站无法识别;(2)为得到特征元素,该方法需要获取大量用户日志,模仿用户请求待监测网站;(3)该方式主要解决网站被攻击劫持篡改,是对正常网站发生异常的判断,而无法监测网络犯罪平台。
发明内容
为了克服现有技术方案的不足,本发明提供网络犯罪平台识别方法、系统、设备和计算机存储介质,能有效的解决背景技术提出的问题。
本发明解决其技术问题所采用的技术方案是:
一种新型网络犯罪平台识别方法,包括以下操作步骤:
步骤S101,通过抽样镜像互联网中部分网络流量,捕获镜像出口的数据包并进行协议解析,还原真实网站信息,具体为通过抽样镜像互联网中部分网络流量,利用网络抓包嗅探技术捕获镜像来的流量,然后对这些流量会话重组,接着进行深度网络数据包解析,分析网站协议并还原出流量中网站的真实信息;
步骤S102,收集网络犯罪平台词汇尤其是新型网络犯罪平台高频词汇并整理成库,收集互联网中合法域名信息,通过对新型网络犯罪平台中高频出现的词汇收集和合法域名收集,经过人工审查确认后,形成黑名单词汇库和域名白名单库;
步骤S103,通过收集的网络犯罪高频词汇、合法域名对网站进行过滤,把过滤合法域名后命中网络犯罪词汇的数据打上疑似网络犯罪平台标签,具体为把还原的网站内容信息与收集的词汇数据集进行匹配,对内容匹配命中的网站域名进行白名单过滤,对过滤后的域名打上疑似网络犯罪标签并进行保留,并留存疑似网络犯罪平台的所有访问记录;
步骤S104,将留存的数据,进行特征提取并打上网络犯罪类型标签,选取适合的深度学习模型进行数据建模,具体为利用留存的疑似网络犯罪平台访问记录数据人工刷选、打标,采用特征向量提取算法进行特征向量的提取,形成深度学习训练的数据集,最后选用适合的深度学习算法进行数据建模;
步骤S105,根据识别模型对疑似网络犯罪平台进行匹配,通过模型识别结果,确定犯罪平台网站类型。
进一步地,在步骤S101中,镜像互联网上的数据流量,可以是数据中心机房网络流量、城域网网络流量、电信运营商网络流量,而抽样则是指对互联网中的数据流量进行部分随机选择。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州数智网络科技有限公司,未经广州数智网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110781281.9/2.html,转载请声明来源钻瓜专利网。