[发明专利]基于证书和域名解析的赌博域名识别方法在审

专利信息
申请号: 202111577064.4 申请日: 2021-12-22
公开(公告)号: CN114372144A 公开(公告)日: 2022-04-19
发明(设计)人: 张兆心;孙国营;程亚楠;许海燕;常利婷;李冷文婷 申请(专利权)人: 哈尔滨工业大学(威海)
主分类号: G06F16/35 分类号: G06F16/35;G06N20/00
代理公司: 北京怡丰知识产权代理有限公司 11293 代理人: 于振强;刘兴禄
地址: 264209*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 证书 域名解析 赌博 域名 识别 方法
【说明书】:

发明涉及一种基于证书和域名解析的赌博域名识别方法,其解决了在不对网页文本进行解析的情况下现有赌博域名识别准确率低的技术问题,其步骤包括建立基于Bert微调构建中文分类模型;分别对所述中文赌博域名及良性域名进行数字证书解析;通过N‑gram方法获取域名的文本特征向量;通过RNN、DecisionTree、ExtraTree、RandomForest、KNN及SVM学习算法对中文赌博域名以及良性域名的数字证书解析特征向量和域名文本特征向量进行训练和测试,构建中文赌博域名挖掘模型。本发明可广泛应于中文赌博域名的识别。

技术领域

本发明涉及计算机领域,特别是涉及一种基于证书和域名解析的赌博域名识别方法。

背景技术

随着计算机技术的飞速发展,互联网走进了千家万户,但网络给人们带来信息和方便的同时,也带来了负面的信息。各种宣扬色情、暴力、赌博的不良内容充斥着网络,不仅严重污染着未成年人的心灵,也破坏了社会风气。数字证书实现了公钥基础设施中的公钥管理,能够有效的避免网络通信过程中的中间人攻击,很多中文赌博网站都会申请使用能够被浏览器误认为是良性证书的赌博数字证书,从而增加用户对中文赌博网站的信任度,并增强赌资流动的安全性。大部分赌博域名的识别方法都是基于域名网页文本内容的,而网页文本内容的获取和解析都是非常耗时的。除了基于域名网页文本内容的分类方法以外,还没有较好的赌博域名分类方法,导致赌博域名难于有效识别管理。

发明内容

本发明为了解决在不对网页文本进行解析的情况下现有赌博域名识别准确率低的技术问题,提供一种识别准确率高且省时快捷的基于证书和域名解析的赌博域名识别方法。

本发明提供一种基于证书和域名解析的赌博域名识别方法,其具体步骤包括:

步骤(1)、建立基于Bert微调构建中文分类模型:利用预训练好的中文Bert模型进行微调,获得具有数字证书的中文赌博域名,从Alex Top 100万获得等量的具有数字证书的良性域名;

步骤(2)、分别对所述中文赌博域名及良性域名的数字证书进行解析:根据rfc5280的规定,对证书中的基本域和Extensions字段进行解析得到数字证书解析特征向量;

步骤(3)、通过N-gram方法获取域名的文本特征向量:利用N-gram方法将Alex Top20万的域名数据集拆分成子字符串,构建域名白名单子字符串集合,通过对中文赌博域名以及良性域名进行分词操作,计算域名长度为N的子字符串在域名白名单子字符串集合中出现的次数,以及域名的所有子字符串在域名白名单子字符串集合中出现的总次数,得到域名文本特征向量;

步骤(4)、通过RNN、DecisionTree、ExtraTree、RandomForest、KNN及SVM学习算法对中文赌博域名以及良性域名通过数字证书解析以及域名文本解析获得的向量进行训练和测试,构建中文赌博域名挖掘模型。

优选地,所述步骤(1)中所述中文赌博域名为Bert模型先基于网页的文本获得了一万个具有数字证书的中文赌博域名,Bert模型的分类准确度为97.76%;预训练好的中文Bert模型的数据来源包括:一、利用THUCTC数据集获得标注的文本数据集;二、从手动标注中文赌博域名中,利用网络爬虫爬取网页的文本信息,再进行标注;三、从Alex Top 100万中筛选出排名靠前的中文域名,利用百度的API进行标注。

优选地,所述步骤(2)中数字证书解析特征向量长度为50,其具体方法包括:

1、基本域解析:获取每个证书中的Version、SerialNumber、Signature、Issuer、Validity以及Subject字段内容,并将这些内容转化为整形数值;

2、获取Extensions字段;

3、判断Extensions字段是否符合rfc5280的约束:判断Extensions字段中的每个字段是否被设置为critical。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(威海),未经哈尔滨工业大学(威海)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111577064.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top