[发明专利]一种基于链接分析的域名层级结构探测方法有效
申请号: | 201810504726.7 | 申请日: | 2018-05-22 |
公开(公告)号: | CN108804576B | 公开(公告)日: | 2021-08-20 |
发明(设计)人: | 李瑞轩;文坤梅;龚晶;李玉华;辜希武;彭城易;许武奎 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955;G06F16/906;G06F16/27;G06K9/62 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 李智;曹葆青 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 链接 分析 域名 层级 结构 探测 方法 | ||
1.一种基于链接分析的域名层级结构探测方法,其特征在于,包括:
(1)对初始URL进行数据爬取并跟踪链接进行深度分布式爬取,得到待分析机构的域名集合与域名链接关系;
(2)利用待分析机构的域名集合与域名链接关系构建链接网络有向图,利用链接网络有向图进行聚类计算,得到聚类结果,计算链接有向图中每个节点的重要度;
(3)利用聚类结果和链接有向图中每个节点的重要度对链接网络有向图进行有向图边加权,得到加权有向图;
(4)在加权有向图上使用基于最短路的算法计算节点从属关系,得到待分析机构的域名从属关系树形结构。
2.如权利要求1所述的一种基于链接分析的域名层级结构探测方法,其特征在于,所述步骤(1)包括:
(1-1)构建域名队列和跟随队列,分别用于保存待爬取的域名数据和当前域名的链接数据,将初始URL加入至域名队列中;
(1-2)从跟随队列提取待爬取URL并将跟随队列的待爬取深度减一,若跟随队列为空则从域名队列提取待爬取域名并初始化其爬取深度值;
(1-3)从待爬取URL的Web页面爬取链接数据,并存储至MongoDB分布式数据库;
(1-4)从链接数据中爬取到新域名和当前域名的新链接,对于新域名和当前域名的新链接进行过滤去重后,将未爬取过且待爬取深度大于0的域名和链接分别加入域名队列和跟随队列;
(1-5)从跟随队列中抓取链接进行跟踪,若跟随队列中所有待爬取深度都为0则停止跟踪,否则进入步骤(1-1)。
3.如权利要求1或2所述的一种基于链接分析的域名层级结构探测方法,其特征在于,所述步骤(2)包括:
(2-1)利用待分析机构的域名集合与域名链接关系构建链接网络有向图,计算链接网络有向图的邻接矩阵;
(2-2)计算链接网络有向图中每个节点的出度数和每个节点链接到其他任意节点的概率值,得到随机图模型有向边概率矩阵,使用随机图模型有向边概率矩阵,构建双向边趋向矩阵;
(2-3)使用链接网络有向图的邻接矩阵与其转置矩阵相乘,得到双向边邻接矩阵,并将双向边邻接矩阵减去双向边趋向矩阵得到相似度矩阵;
(2-4)使用相似度矩阵的行和对角矩阵减去其本身,得到拉普拉斯矩阵;
(2-5)计算拉普拉斯矩阵的特征值和特征向量,将相邻特征值之差的最大值所在的下标作为目标聚类的个数;
(2-6)使用k-means对特征向量转置后的行向量进行聚类,得到聚类结果,将聚类结果映射至链接网络有向图的节点的聚类中,计算链接有向图中每个节点的重要度。
4.如权利要求3所述的一种基于链接分析的域名层级结构探测方法,其特征在于,所述计算链接有向图中每个节点的重要度的具体实现方式为:
去除链接网络有向图的有向链接的方向,构建域名链接网络无向图,计算域名链接网络无向图中每个节点对其相邻节点的重要度贡献比例,初始化域名链接网络无向图中每个节点的重要度,对于域名链接网络无向图中每个节点,用其相邻节点的重要度贡献比例乘以相邻节点的重要度然后求和得到每个节点的新一轮重要度;当域名链接网络无向图中每个节点的新一轮重要度的变化值之和小于阈值时,得到链接有向图中每个节点的重要度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810504726.7/1.html,转载请声明来源钻瓜专利网。