[发明专利]一种基于Web的域名数据获取方法有效

专利信息
申请号: 201911072822.X 申请日: 2019-11-05
公开(公告)号: CN110798545B 公开(公告)日: 2020-08-18
发明(设计)人: 赵锋;王宝生;原玉磊;叶佳骏;时向泉;赵宝康;虞万荣;韩彪;陶静;魏子令 申请(专利权)人: 中国人民解放军国防科技大学
主分类号: H04L29/12 分类号: H04L29/12;H04L29/08
代理公司: 长沙中科启明知识产权代理事务所(普通合伙) 43226 代理人: 任合明
地址: 410003 湖*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于Web的域名数据获取方法。方案是构建由Web服务探测模块、Web页面获取模块、页面解析域名提取模块、域名和IP地址集映射模块组成的域名数据获取系统;Web服务探测模块采用网络扫描工具通过80和443端口扫描IPv4单播地址空间,建立80和443端口开放的IPv4地址列表;Web页面获取模块根据端口号和IPv4地址列表发送网页请求,获取页面信息,建立页面内容数据库;页面解析域名提取模块提取页面内容数据库中每个页面的每个链接,提取出域名,建立域名数据库;域名和IP地址集映射模块向域名服务系统发域名解析请求,获得域名数据库中每个域名和对应IP地址集。本发明可实现全球网站域名高效获取,降低流量开销,提高域名数据获取的广度和效率。
搜索关键词: 一种 基于 web 域名 数据 获取 方法
【主权项】:
1.一种基于Web的域名数据获取方法,其特征在于包括以下步骤:/n第一步,构建域名数据获取系统,域名数据获取系统由Web服务探测模块、Web页面获取模块、页面解析域名提取模块以及域名和IP地址集映射模块组成;域名数据获取系统安装在和因特网相连的计算机设备中,与因特网中的80端口即HTTP服务端口、443端口即HTTPS服务端口、53端口即DNS系统端口相连;/nWeb服务探测模块与因特网、Web页面获取模块相连,Web服务探测模块扫描IPv4单播地址空间,从因特网扫描获得80端口开放的IPv4地址列表和443端口开放的IPv4地址列表,将80端口开放的IPv4地址列表和443端口开放的IPv4地址列表发送给Web页面获取模块,令80端口开放的IPv4地址列表中IPv4地址有m1个,443端口开放的IPv4地址列表中IPv4地址有m2个,IPv4地址共M个,M=m1+m2;m1、m2、M均为正整数;/nWeb页面获取模块与因特网、Web服务探测模块、页面解析域名提取模块相连,从Web服务探测模块获得80端口开放的IPv4地址列表和443端口开放的IPv4地址列表,通过HTTP协议或HTTPS协议从因特网中获取IPv4地址列表所对应的页面内容,建立页面内容数据库;设返回的页面数为N,页面内容数据库包含N个表项,每个表项包括三个域:IPv4地址、端口号、该IP地址对应的首页页面内容;N为小于等于M的正整数;/n页面解析域名提取模块与Web页面获取模块、域名和IP地址集映射模块相连,页面解析域名提取模块处理页面内容数据库的每一个页面内容,提取包含“http://”或“https://”的链接,从链接中提取域名数据,建立域名数据库;域名数据库包含N个表项,每个表项包括三个域:IPv4地址、端口号和IPv4地址对应页面中含有的域名列表;/n域名和IP地址集映射模块与因特网中的域名服务系统、页面解析域名提取模块相连,域名和IP地址集映射模块从域名数据库获取域名列表,建立不重复的域名集合,通过向域名服务系统发送域名解析请求,解析域名集合中的每一个域名,建立域名和IP地址集映射数据库;域名和IP地址集映射数据库包括K个表项,每个表项包括一个域名和对应的IP地址集合;K为正整数;/n第二步,选择网络扫描工具,并根据选定的网络扫描工具要求设置排除地址文件exclude.txt、配置文件config,方法是:/n2.1根据数据获取时间要求以及运行环境约束选择安装一种网络扫描工具,当域名数据获取系统的因特网访问带宽充足且要求能较快获取数据时选择Masscan,当对数据获取时间不限要求或者带宽较低时选择Nmap或Zmap;/n步骤2.2依据扫描工具所需文件格式,设置排除地址文件exclude.txt;/n步骤2.3依据扫描工具所需文件格式设置配置文件config,内容包含网络扫描工具名称、发包速率、扫描结果文件名、扫描地址范围和端口,排除地址文件即exclude.txt;/n第三步,Web服务探测模块采用网络扫描工具扫描IPv4单播地址空间,方法为:/n步骤3.1Web服务探测模块读取配置文件config,根据其中的网络扫描工具名称和发包速率、扫描结果文件名、排除地址文件,构造对应的扫描工具命令,启动扫描工具扫描网络;/n步骤3.2Web服务探测模块判定网络扫描工具是否报告已完成了扫描并生成了扫描结果文件,如果是,转步骤3.1;否则转步骤3.2继续等待生成扫描结果文件;/n步骤3.3Web服务探测模块从扫描结果文件提取80端口开放的IPv4地址列表和443端口开放的IPv4地址列表;令80端口开放的IPv4地址列表中IPv4地址有m1个,443端口开放的IPv4地址列表中IPv4地址有m2个,IPv4地址共M个,M=m1+m2;/n步骤3.4将80端口开放的IPv4地址列表和443端口开放的IPv4地址列表发送给Web页面获取模块;/n第四步,Web页面获取模块从Web服务探测模块获得80端口开放的IPv4地址列表以及443端口开放的IPv4地址列表,对于80端口开放的IPv4地址列表,向因特网发送HTTP网页请求,对于443端口开放的IPv4地址列表,向因特网发送HTTPS网页请求,从因特网获取返回的页面信息,建立页面内容数据库;具体方法是:/n步骤4.1运行数据库软件,初始化页面内容数据库为空,页面内容数据库每个表项包含三个域:IPv4地址、端口号、页面内容;/n步骤4.2Web页面获取模块对于80端口开放的IPv4地址列表中的m1个IPv4地址,分别发送HTTP请求;同时,Web页面获取模块对于443端口开放的地址列表中的m2个IPv4地址,分别发送HTTPS请求;/n步骤4.3Web页面获取模块按页面请求结果到达的先后顺序处理:如果从因特网接收到所请求IPv4地址返回的页面内容,则Web页面获取模块构造页面内容数据库表项,包括对应的IPv4地址、端口号、返回的页面内容,将该表项存入页面内容数据库;令返回的页面数目为N,页面内容数据库包含N个IPv4地址和其对应的端口号与页面内容;/n第五步,页面解析域名提取模块查询页面内容数据库中的N个表项,提取出每一个页面中含有“http://”和“https://”的链接,从K1个链接中提取出K1个域名,建立域名数据库;域名数据库包含N个IPv4地址、对应的端口号和对应的页面中含有的K1个域名组成的域名列表;方法为:/n步骤5.1运行数据库软件,初始化域名数据库为空,域名数据库的表项包含三个域:IPv4地址、IPv4地址对应的端口号、IPv4地址对应的页面中含有的域名列表;/n步骤5.2初始化变量n=1;/n步骤5.3读取页面内容数据库的第n个表项;/n步骤5.4初始化第n个域名列表为空;/n步骤5.5对页面内容数据库的第n个表项中的页面内容进行处理,通过“http://”和“https://”关键字匹配,提取出页面中的含有“http://”和“https://”的链接,令共含有K1个链接;从K1个链接中提取出K1个域名,将K1个域名加入第n个域名列表;K1为正整数;/n步骤5.6将第n个表项的IPv4地址、端口号和第n个域名列表填到第n个域名数据库表项;/n步骤5.7令n=n+1,若n≤N,转步骤5.3;若n>N,转第六步;/n第六步,域名和IP地址集映射模块对域名数据库中的N个表项,向因特网中的域名服务系统发出域名解析请求,根据域名解析请求返回结果获得域名数据库中所有表项中的域名和DNS系统中对应的IP地址集,建立域名和IP地址集映射数据库;方法是:/n步骤6.1运行数据库软件,初始化域名和IP地址集映射数据库为空,域名和IP地址集映射数据库中每个表项包括2个域:域名、域名对应的IP地址集合;/n步骤6.2从域名数据库中获取N个域名数据库表项,提取N个表项中域名列表中的域名,构建域名集合,令该集合的数目为KK,KK为正整数;/n步骤6.3对于域名集合中的KK个域名,从因特网的域名解析系统中获取并存储这KK个域名分别对应的地址集合;具体包含以下子步骤:/n子步骤6.3.1初始化变量k=1;/n子步骤6.3.2取出域名集合中的第k个域名;/n子步骤6.3.3初始化第k个IP地址集合为空;/n子步骤6.3.4域名和IP地址集映射模块根据第k个域名向对应域名解析服务器地址发送域名解析请求;/n子步骤6.3.5域名和IP地址集映射模块从对应域名解析服务器地址接到域名解析应答,提取出域名解析应答中和域名对应的IP地址列表,如果IP地址列表中所有的IP地址都已经在第k个IP地址集合中,则转子步骤6.3.7,否则执行子步骤6.3.6;/n子步骤6.3.6域名和IP地址集映射模块将IP地址列表中的不在第k个IP地址集合中的IP地址加入第k个IP地址集合,转子步骤6.3.4;/n子步骤6.3.7域名和IP地址集映射模块将第k个域名和第k个IP地址集合组成域名和IP地址集映射数据库第k个表项,并将第k个表项存入域名和IP地址集映射数据库;/n子步骤6.3.8令k=k+1,若k≤KK,转子步骤6.3.2;若k>KK,表示已获得全球网站的域名和对应IP地址集,结束。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201911072822.X/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top