[发明专利]相似域名查找方法、装置及电子设备在审

专利信息
申请号: 202011232693.9 申请日: 2020-11-06
公开(公告)号: CN112256838A 公开(公告)日: 2021-01-22
发明(设计)人: 李晓东;王伟;彭博韬;张宁;杨国强 申请(专利权)人: 山东伏羲智库互联网研究院;伏羲科技(菏泽)有限公司
主分类号: G06F16/33 分类号: G06F16/33;G06F16/31;G06F16/35;G06F40/253
代理公司: 北京路浩知识产权代理有限公司 11002 代理人: 王宇杨
地址: 100192 北京市海淀区永*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 相似 域名 查找 方法 装置 电子设备
【说明书】:

发明实施例提供一种相似域名查找方法、装置及电子设备,该方法包括:获取待查域名;提取待查域名的文本特征,并对文本特征进行向量化表示,得到待查域名特征向量;对待查域名特征向量进行编码,并根据编码结果从预设的全量域名数据库中匹配出目标域名特征向量组,其中,全量域名数据库中包括根据域名特征向量编码结果进行分类的多个域名特征向量组;计算待查域名特征向量与目标特征向量组中每一个域名特征向量之间的距离,并根据距离得到待查域名的相似域名。本方法将域名间相似性计算,转换成特征向量之间相似性的比较,具体转换成待查域名特征向量和目标域名特征向量组中每一个域名特征向量之间距离的计算,降低了计算难度,提升了计算速度。

技术领域

本发明涉及域名解析服务技术领域,尤其涉及一种相似域名查找方法、装置及电子设备。

背景技术

在当前的网络信息时代,域名服务器(Domain Name Server,简称DNS)每天需要解析数十亿到上百亿条的域名请求,其中不乏网络威胁和网络攻击行为。因此,为了提升网络访问的安全性,需要基于域名解析历史记录对大量甚至海量的域名数据进行数据分析。但是,由于域名是由字符串组成的,往往域名长短不一、无意义词较多,域名解析出的IP地址不固定,且域名之间的相似度难以直接定义。因此,对域名数据进行的数据分析中,直接计算域名间的相似性尤其不易。

而近年来,从计算机视觉到自然语言处理再到时间序列预测,神经网络及深度学习技术的应用越来越广泛。故而有些研究者将神经网络及深度学习技术应用到了域名间相似性计算的过程中来。但是,由于域名数据往往是海量的、复杂多变的,因此,一般的应用手段,对于海量域名数据相似性计算的执行效率非常低。进一步说明,比如:

现有方案一:

收集DNS查询数据并进行预处理,构建域名词表和用户访问域名序列;经过预处理的数据传入无监督模型Skip gram,设置相关参数,通过Skip gram模型训练域名向量;通过域名向量计算域名间的相似度,分析用户行为偏好。

该现有方案一,所用的Skip gram模型,属于比较老的模型,其特征表现能力差,不能适应于当前针对海量域名数据进行域名间相似性计算的过程。而且,Skip gram模型在每次应用前必须要自己训练,而其训练过程在大数据集上非常耗时耗力,普遍应用性不强。该方案寻找最相似域名向量时,需要对全数据集中的所有向量进行相似性计算和比较,其必须顺序地遍历扫描全数据集中所有向量,才能定位距离最小向量,而在全数据集特别大的情况下,该种操作是非常耗时耗力的,也会导致计算速度过慢,且计算结果准确性差。

现有方案二:

根据DNS服务器日志采集大量互联网网站的原始描述信息作为网站数据集,并进行预处理和人工打标签,然后提取用于输入深度学习模型的每个网站的高维特征向量表示,并对每个网站增加对应的网站类别标签,并转化为类别向量;高维特征向量表示作为深度学习模型的输入,类别向量作为深度学习模型的输出,使用Adam梯度下降算法优化器监控训练基于LSTM的循环神经网络深度学习模型;在已训练好的LSTM循环神经网络深度学习模型后再增加一层SoftMax回归,完成分类算法。

该现有方案二,是一种端到端的深度学习分类算法,必须要对训练集进行标注,其不适于大量无标注数据的分析,其应用存在着很大的局限性。

发明内容

针对现有技术存在的问题,本发明实施例提供了一种相似域名查找方法、装置及电子设备。

第一方面,本发明实施例提供了一种相似域名查找方法,包括:

获取待查域名;

提取所述待查域名的文本特征,并对所述文本特征进行向量化表示,得到待查域名特征向量;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东伏羲智库互联网研究院;伏羲科技(菏泽)有限公司,未经山东伏羲智库互联网研究院;伏羲科技(菏泽)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011232693.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top