[发明专利]基于证书和域名解析的赌博域名识别方法在审
申请号: | 202111577064.4 | 申请日: | 2021-12-22 |
公开(公告)号: | CN114372144A | 公开(公告)日: | 2022-04-19 |
发明(设计)人: | 张兆心;孙国营;程亚楠;许海燕;常利婷;李冷文婷 | 申请(专利权)人: | 哈尔滨工业大学(威海) |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N20/00 |
代理公司: | 北京怡丰知识产权代理有限公司 11293 | 代理人: | 于振强;刘兴禄 |
地址: | 264209*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 证书 域名解析 赌博 域名 识别 方法 | ||
本发明涉及一种基于证书和域名解析的赌博域名识别方法,其解决了在不对网页文本进行解析的情况下现有赌博域名识别准确率低的技术问题,其步骤包括建立基于Bert微调构建中文分类模型;分别对所述中文赌博域名及良性域名进行数字证书解析;通过N‑gram方法获取域名的文本特征向量;通过RNN、DecisionTree、ExtraTree、RandomForest、KNN及SVM学习算法对中文赌博域名以及良性域名的数字证书解析特征向量和域名文本特征向量进行训练和测试,构建中文赌博域名挖掘模型。本发明可广泛应于中文赌博域名的识别。
技术领域
本发明涉及计算机领域,特别是涉及一种基于证书和域名解析的赌博域名识别方法。
背景技术
随着计算机技术的飞速发展,互联网走进了千家万户,但网络给人们带来信息和方便的同时,也带来了负面的信息。各种宣扬色情、暴力、赌博的不良内容充斥着网络,不仅严重污染着未成年人的心灵,也破坏了社会风气。数字证书实现了公钥基础设施中的公钥管理,能够有效的避免网络通信过程中的中间人攻击,很多中文赌博网站都会申请使用能够被浏览器误认为是良性证书的赌博数字证书,从而增加用户对中文赌博网站的信任度,并增强赌资流动的安全性。大部分赌博域名的识别方法都是基于域名网页文本内容的,而网页文本内容的获取和解析都是非常耗时的。除了基于域名网页文本内容的分类方法以外,还没有较好的赌博域名分类方法,导致赌博域名难于有效识别管理。
发明内容
本发明为了解决在不对网页文本进行解析的情况下现有赌博域名识别准确率低的技术问题,提供一种识别准确率高且省时快捷的基于证书和域名解析的赌博域名识别方法。
本发明提供一种基于证书和域名解析的赌博域名识别方法,其具体步骤包括:
步骤(1)、建立基于Bert微调构建中文分类模型:利用预训练好的中文Bert模型进行微调,获得具有数字证书的中文赌博域名,从Alex Top 100万获得等量的具有数字证书的良性域名;
步骤(2)、分别对所述中文赌博域名及良性域名的数字证书进行解析:根据rfc5280的规定,对证书中的基本域和Extensions字段进行解析得到数字证书解析特征向量;
步骤(3)、通过N-gram方法获取域名的文本特征向量:利用N-gram方法将Alex Top20万的域名数据集拆分成子字符串,构建域名白名单子字符串集合,通过对中文赌博域名以及良性域名进行分词操作,计算域名长度为N的子字符串在域名白名单子字符串集合中出现的次数,以及域名的所有子字符串在域名白名单子字符串集合中出现的总次数,得到域名文本特征向量;
步骤(4)、通过RNN、DecisionTree、ExtraTree、RandomForest、KNN及SVM学习算法对中文赌博域名以及良性域名通过数字证书解析以及域名文本解析获得的向量进行训练和测试,构建中文赌博域名挖掘模型。
优选地,所述步骤(1)中所述中文赌博域名为Bert模型先基于网页的文本获得了一万个具有数字证书的中文赌博域名,Bert模型的分类准确度为97.76%;预训练好的中文Bert模型的数据来源包括:一、利用THUCTC数据集获得标注的文本数据集;二、从手动标注中文赌博域名中,利用网络爬虫爬取网页的文本信息,再进行标注;三、从Alex Top 100万中筛选出排名靠前的中文域名,利用百度的API进行标注。
优选地,所述步骤(2)中数字证书解析特征向量长度为50,其具体方法包括:
1、基本域解析:获取每个证书中的Version、SerialNumber、Signature、Issuer、Validity以及Subject字段内容,并将这些内容转化为整形数值;
2、获取Extensions字段;
3、判断Extensions字段是否符合rfc5280的约束:判断Extensions字段中的每个字段是否被设置为critical。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(威海),未经哈尔滨工业大学(威海)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111577064.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种漂体打磨设备
- 下一篇:一种基于CDP协议的以太网网络接口转换器