[发明专利]一种有害域名核验方法及装置在审
申请号: | 202110981798.2 | 申请日: | 2021-08-25 |
公开(公告)号: | CN113688905A | 公开(公告)日: | 2021-11-23 |
发明(设计)人: | 尚秋明;张立坤;王利军 | 申请(专利权)人: | 中国互联网络信息中心 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/53;G06N3/04;H04L29/06;H04L29/12 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张影 |
地址: | 100190 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 有害 域名 核验 方法 装置 | ||
1.一种有害域名核验方法,其特征在于,包括:
确定疑似有害域名;
获取每一所述疑似有害域名对应的网页图像;
将所述网页图像在目标图像库中进行图像相似度检索,得到所述网页图像的相似度分值,所述目标图像库中包括已确认的有害域名对应的网页图像;
将所述相似度分值大于分值阈值的疑似有害域名确定为有害域名;
将所述相似度分值不大于分值阈值的疑似有害域名进行聚类分析,获得至少一个域名组,所述域名组中包括至少一个疑似有害域名,且所述域名组中的各个疑似有害域名对应的网页图像具有相似特征;
对所述域名组中的疑似有害域名进行识别,以确定所述域名组中的各个疑似有害域名是否为有害域名。
2.根据权利要求1所述的方法,其特征在于,所述确定疑似有害域名,包括:
获取初始域名列表,所述初始域名列表包括通用顶级域域名列表和国家域名列表;
对所述初始域名列表中的域名进行初始筛查,获得疑似有害域名。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
创建目标图像库,包括:
获取已确认的有害域名;
利用模拟浏览器获得所述已确认的有害域名对应的网页图像;
对所述网页图像进行存储,获得目标图像库。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对每一所述疑似有害域名的网页图像进行内容和图像识别,确定每一所述疑似有害域名对应的参考分值,所述参考分值为对应有害类型匹配的参考分值。
5.根据权利要求4所述的方法,其特征在于,所述对所述域名组中的域名进行识别,以确定所述域名组中的各个域名是否为有害域名,包括:
获取所述域名组中每一域名对应的参考分值,所述参考分值包括第一有害类型对应的第一分值和第二有害类型对应的第二分值;
若所述域名组中每一域名对应的第一有害类型对应的第一分值均高于第一类型的分数阈值,且所述每一域名的第一分值均大于第二分值,确定所述域名组中的每一域名属于第一有害类型对应的有害域名。
6.根据权利要求4所述的方法,其特征在于,所述对所述域名组中的域名进行识别,以确定所述域名组中的各个域名是否为有害域名,包括:
获取所述域名组中的目标域名信息,所述目标域名信息为所述域名组中的符合目标条件的域名的信息;
确定所述目标域名信息对应的识别结果;
基于所述识别结果确定所述域名组中的各个域名是否为有害域名。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将在所述疑似有害域名中确定的有害域名对应的网页图像,添加至所述目标图像库,以更新所述目标图像库。
8.根据权利要求4所述的方法,其特征在于,所述对每一所述疑似有害域名的网页图像进行内容和图像识别,确定每一所述疑似有害域名对应的参考分值,包括:
对每一所述疑似有害域名的网页图像中的文字内容进行识别,获得目标关键词;
基于所述目标关键词对应的权值进行计算,获得所述文字内容的有害分值;
利用图像识别模型对所述网页图像进行识别,得到与所述图像识别模型对应的分类类型相匹配的有害分值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国互联网络信息中心,未经中国互联网络信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110981798.2/1.html,转载请声明来源钻瓜专利网。