[发明专利]基于地理信息对域名进行画像的方法有效
申请号: | 201810419155.7 | 申请日: | 2018-05-04 |
公开(公告)号: | CN108737589B | 公开(公告)日: | 2020-12-15 |
发明(设计)人: | 张兆心;程亚楠;吴晓宝;崔诗尧;杜跃进;陆柯羽 | 申请(专利权)人: | 哈尔滨工业大学(威海) |
主分类号: | H04L29/12 | 分类号: | H04L29/12;H04L29/06 |
代理公司: | 北京怡丰知识产权代理有限公司 11293 | 代理人: | 于振强 |
地址: | 264209*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 地理信息 域名 进行 画像 方法 | ||
本发明提供一种基于地理信息对域名进行画像的方法,其解决了现有技术问题:域名描述主要侧重在其应用,不便于非法域名挖掘;包括以下步骤:步骤1.对域名进行预处理:(1)验证域名是否合法;(2)提取注册域名和网站首页域名;步骤2.获取多源地理信息;(1)根据网站首页域名,获取网站的ICP备案中的地理信息;(2)根据注册域名,获取域名的WHOIS信息中地理信息;(3)根据网站首页域名,获取域名的IP地理信息;步骤3.对多源地理信息进行标准化;步骤4.评估域名的地理信息一致性指数,完成域名画像。本发明广泛应用于信息技术领域。
技术领域
本发明涉及一种对域名的特征进行描述的方法,特别是涉及一种基于地理信息对域名进行画像的方法。
背景技术
近年来,互联网的发展迅速,其已融入到人类生活的各个方面。域名作为伴随互联网最早出现的产物之一,也越来越被人们认识与普及。
域名从申请注册到投入使用,整个过程域名产生特征。在传统技术上,对域名的描述,主要侧重在其应用上,例如域名作为Web网站使用,作为邮件服务器地址等。而尚未从其他角度刻画域名的特征,对其他信息了解甚少,且不便于非法域名的挖掘。
发明内容
本发明针对现有技术问题:域名描述主要侧重在其应用,不便于非法域名挖掘,提供一种便于非法域名挖掘的基于地理信息的的域名特征画像的方法。
为此,本发明的技术方案是,包括以下步骤:
步骤1.对域名进行预处理:
(3)验证域名是否合法;
(4)提取注册域名和网站首页域名;
步骤2.获取多源地理信息;
(1)根据网站首页域名,获取网站的ICP备案中的地理信息,具体步骤是:
a.获取网站在工信部的备案信息,方法有两种:1)利用网络爬虫获取网站首页填写的ICP备案信息;2)查询ICP备案权威网站,获取网站的ICP备案信息;
b.根据备案的组成规则,提取出直辖市或省份简称;
(2)根据注册域名,获取域名的WHOIS信息中地理信息,具体步骤是:
a.通过与域名对应的WHOIS服务器交互,获取域名的原始WHOIS记录,其中包含域名的注册地理信息、注册电话信息和注册邮编信息;
b.提取注册地理信息、注册电话信息和注册邮编信息;所述注册地理信息的字段包括注册国家名称、注册省份或州名称、注册城市名称和注册街道地址,这些字段信息都为省市拼音或者简称;
(3)根据网站首页域名,获取域名的IP地理信息,具体步骤是:
a.向DNS递归服务器发送请求,获取域名的IP地址;
b.将IP地址解析为地理位置信息;
步骤3.对多源地理信息进行标准化:利用电话语料库、IP库、地理库和邮编库,将所述步骤2获取的不统一的多源地理信息数据进行统一,解析为标准的地理数据;
步骤4.评估域名的地理信息一致性指数,完成域名画像,具体步骤是:
(1)根据域名多源地理信息,评估其地理信息的一致性指数,地理源信息解析出的地理位置,相同结果的源越多,一致性指数越大;
(2)基于各地理信息和一致性指数,完成域名画像。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(威海),未经哈尔滨工业大学(威海)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810419155.7/2.html,转载请声明来源钻瓜专利网。