[发明专利]一种基于链接分析的域名层级结构探测方法有效
申请号: | 201810504726.7 | 申请日: | 2018-05-22 |
公开(公告)号: | CN108804576B | 公开(公告)日: | 2021-08-20 |
发明(设计)人: | 李瑞轩;文坤梅;龚晶;李玉华;辜希武;彭城易;许武奎 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955;G06F16/906;G06F16/27;G06K9/62 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 李智;曹葆青 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 链接 分析 域名 层级 结构 探测 方法 | ||
本发明公开了一种基于链接分析的域名层级结构探测方法,包括:对初始URL进行数据爬取并跟踪链接进行深度分布式爬取,得到待分析机构的域名集合与域名链接关系;利用待分析机构的域名集合与域名链接关系构建链接网络有向图,利用链接网络有向图进行聚类计算,得到聚类结果,计算链接有向图中每个节点的重要度;利用聚类结果和链接有向图中每个节点的重要度对链接网络有向图进行有向图边加权,得到加权有向图;在加权有向图上使用基于最短路的算法计算节点从属关系,得到待分析机构的域名从属关系树形结构。本发明具有较高的数据爬取效率和域名采集覆盖率;本发明在保证结构提取高效性的同时,也极大提高了域名从属关系探测的准确率。
技术领域
本发明属于互联网应用技术领域,更具体地,涉及一种基于链接分析的域名层级结构探测方法。
背景技术
随着互联网的快速发展,越来越多的机构在互联网上搭建自己的门户网站,机构的Web站点的规模以及其子机构域名的数量也都在爆炸式的增长。尽管其为人们的日常生活提供了必要的支持与便利,但却难以对其Web站点或域名关系有直观的了解,难以发现域名组织模式与规律。因此,需要一个能够对机构的域名站点进行针对性分析的方法,发现各子机构的域名列表,并对其域名所属机构的从属关系进行探测分析,提供探测机构直观全面的展示。
由于Web站点具有海量性规模、链接关系复杂等特点,对机构的web结构进行针对性分析不是一件容事,大量学者已经对分布式数据获取优化和Web结构提取做了大量的研究。Sawroop Kaur Bal(Bal S K,Geetha G.Smart distributed web crawler[C]:International Conference on Information Communication and EmbeddedSystems.IEEE,2016:1-5.)发明一种主从式的分布式爬虫,使用动态分配策略将请求分配给从节点,实现负载均衡,由于优质页面通常不会存在于较深的页面,因此其通常将爬取深度设置为5,其设计使用B树数据结构来存放爬取的数据也有效的提高了数据增删改查的效率;Do Le QuoC(Quoc D L,Fetzer C,Felber P,et al.UniCrawl:A PracticalGeographically Distributed Web Crawler[J].2015:389-396.)则发明了一种名为Unicrawl的与地理位置相关的分布式爬虫,它是基于Nutch框架实现的,并结合MapReduce进行分布式计算,其任务分发时考虑实际地理位置的影响,减少了通信消耗与传统的爬虫相比,性能提高了93.6%,速度提高1.75倍。在Web结构提取方面,Satuluri等人(V.Satuluri,S.Parthasarathy,Symmetrizations for clustering directedgraphs.in:EDBT′11:Proceedings of the 14th International Conference onExtending Database Technology,2011.343-354.)提出一种将指向信息转化为无向图的边权的方法,实现节点聚类的工作。在国内,任仲晟等人提出一种基于页面标签的Web结构提取技术,该算法有较快的提取速度,但准确度相对较低;苏亚博(苏亚博.基于链接分析的Web站点结构提取算法[J].现代计算机,2016(8):54-55.)提出一种改进自PageRank算法的基于链接导向的Web站点结构提取算法。该算法需要一个预先定义好的待爬取Web页面的集合,采用此方法对Web站点区分域名乃至链接层次,然而其不能很好的反映各域名间的从属关系和层次树结构。
综上所述,当前研究对发现域名所属机构间的关联关系,探测其从属关系还缺乏相关的方法。目前主要是解决组织机构级别的站点域名间关联复杂,不能直观反映其从属关系的问题。从实际的角度看,已有的解决方案只是分析得出了站点间的链接关系,并没有进一步分析其内在关联关系和组织结构。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810504726.7/2.html,转载请声明来源钻瓜专利网。