[发明专利]基于证书和域名解析的赌博域名识别方法在审
申请号: | 202111577064.4 | 申请日: | 2021-12-22 |
公开(公告)号: | CN114372144A | 公开(公告)日: | 2022-04-19 |
发明(设计)人: | 张兆心;孙国营;程亚楠;许海燕;常利婷;李冷文婷 | 申请(专利权)人: | 哈尔滨工业大学(威海) |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N20/00 |
代理公司: | 北京怡丰知识产权代理有限公司 11293 | 代理人: | 于振强;刘兴禄 |
地址: | 264209*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 证书 域名解析 赌博 域名 识别 方法 | ||
1.一种基于证书和域名解析的赌博域名识别方法,其特征是,其具体步骤包括:
步骤(1)、建立基于Bert微调构建中文分类模型:利用预训练好的中文Bert模型进行微调,获得具有数字证书的中文赌博域名,从Alex Top 100万获得等量的具有数字证书的良性域名;
步骤(2)、分别对所述中文赌博域名及良性域名的数字证书进行解析:根据rfc5280的规定,对证书中的基本域和Extensions字段进行解析得到数字证书解析特征向量;
步骤(3)、通过N-gram方法获取域名的文本特征向量:利用N-gram方法将Alex Top 20万的域名数据集拆分成子字符串,构建域名白名单子字符串集合,通过对中文赌博域名以及良性域名进行分词操作,计算域名长度为N的子字符串在域名白名单子字符串集合中出现的次数,以及域名的所有子字符串在域名白名单子字符串集合中出现的总次数,得到域名文本特征向量;
步骤(4)、通过RNN、DecisionTree、ExtraTree、RandomForest、KNN及SVM学习算法对中文赌博域名以及良性域名通过数字证书解析以及域名文本解析获得的向量进行训练和测试,构建中文赌博域名挖掘模型。
2.根据权利要求1所述基于证书解析的赌博域名识别方法,其特征在于,所述步骤(1)中所述中文赌博域名为Bert模型先基于网页的文本获得了一万个具有数字证书的中文赌博域名,Bert模型的分类准确度为97.76%;预训练好的中文Bert模型的数据来源包括:一、利用THUCTC数据集获得标注的文本数据集;二、从手动标注中文赌博域名中,利用网络爬虫爬取网页的文本信息,再进行标注;三、从Alex Top 100万中筛选出排名靠前的中文域名,利用百度的API进行标注。
3.根据权利要求1所述基于证书解析的赌博域名识别方法,其特征在于,所述步骤(2)中数字证书解析特征向量长度为50,其具体方法包括:
1、基本域解析:获取每个证书中的Version、SerialNumber、Signature、Issuer、Validity以及Subject字段内容,并将这些内容转化为整形数值;
2、获取Extensions字段;
3、判断Extensions字段是否符合rfc5280的约束:判断Extensions字段中的每个字段是否被设置为critical。
4.根据权利要求1所述基于证书解析的赌博域名识别方法,其特征在于,所述步骤(3)中域名长度为N的子字符串在域名白名单子字符串集合中出现次数构建方法为:选用AlexTop 20万的域名来构建域名的白名单子字符串集合,每一个域名去除特殊符号后被尺寸为N的滑动窗口拆分,从最左边开始,每相邻的N个字符拆分得到一个子字符串,并向右滑动一个字符,直到滑动窗口的最右端第一次到达字符串的最右边为止,合并相同的子字符串,构建域名白名单子字符串集合,所述N的值为3,4,5,6。
5.根据权利要求1所述基于证书解析的赌博域名识别方法,其特征在于,所述步骤(4)中RNN学习算法构造双层的训练模型,第一层的记忆体个数设置为300,使用0.2的Droupout,第二层的记忆体个数设置为200,使用0.2的Droupout。
6.根据权利要求1所述基于证书解析的赌博域名识别方法,其特征在于,所述步骤(4)中训练和测试的比例设置为8:2,并通过Accuracy、Precision、Recall以及F1对测试结果进行评价。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(威海),未经哈尔滨工业大学(威海)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111577064.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种漂体打磨设备
- 下一篇:一种基于CDP协议的以太网网络接口转换器