[发明专利]地址信息库的更新方法和装置有效

专利信息
申请号: 201510059620.7 申请日: 2015-02-04
公开(公告)号: CN104636458B 公开(公告)日: 2018-03-23
发明(设计)人: 王蓉;王志军 申请(专利权)人: 中国联合网络通信集团有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京安信方达知识产权代理有限公司11262 代理人: 李丹,栗若木
地址: 100033 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 地址 信息库 更新 方法 装置
【说明书】:

技术领域

发明涉及互联网技术领域,具体涉及一种地址信息库的更新方法和装置。

背景技术

移动互联网用户行为分析是指以识别用户使用的互联网应用(例如微信、QQ、微博、新浪网以及淘宝网等等)为基础,通过对用户相关的数据进行应用识别以识别出用户所访问的互联网应用类别和频度,从而得到用户的上网喜好等信息。其中,应用识别是指将用户访问互联网的记录中的访问的互联网协议(Internet Protocol,IP)地址或访问的统一资源定位符(Uniform Resource Locator,URL)与互联网应用的地址信息库中的记录进行匹配计算,该地址信息库中存储与互联网应用对应的地址信息,地址信息包括:该互联网应用对应的IP地址和/或该互联网应用对应的URL(注:某些互联网应用可能只有对应的IP地址而没有对应的URL),如果用户访问互联网的记录(例如访问的URL)与该地址信息库中某个互联网应用的地址信息(例如该互联网应用对应的URL)匹配成功,则成功识别出该记录是用户访问该互联网应用的记录。

随着时间的发展,互联网应用的地址信息会发生变化,例如新增的可供访问的IP地址或URL,因此,互联网应用的地址信息库就需要根据实际情况不断更新。现有的技术方案是使用网络爬虫技术来更新和维护地址信息库。网络爬虫是一个自动提取网页的程序,它的基本原理为:将给定的网址信息作为目标地址,将目标地址放入待抓取队列中,从待抓取队列依次读取,并将队列中待抓取的目标地址交给网页下载器,网页下载器将目标地址对应的网页的页面内容下载下来,对页面内容进行分析可以确定该页面对应的应用以及该页面中与目标地址相关的地址。由于网络爬虫会消耗网站的资源,容易引起网站访问阻塞,一些互联网应用对网络爬虫进行了屏蔽。因此,现有的技术方案存在以下问题:无法将所有互联网应用的所有地址信息收集完整,地址信息库的准确性较低。

发明内容

本发明实施例提供的地址信息库的更新方法和装置,能够将所有互联网应用的所有地址信息收集完整,提高地址信息库的准确性。

第一方面,本发明实施例提供一种地址信息库的更新方法,所述方法包括:

根据地址信息库对用户访问互联网的记录进行应用识别,每条记录中包括访问地址和访问时刻,查找出识别成功的记录以及识别失败的记录;

对于由任意一条识别成功的记录和任意一条识别失败的记录组成的两条记录,根据所述两条记录对应的两个访问时刻计算所述两条记录对应的两个访问地址的相关系数;

若所述两个访问地址的相关系数大于或等于预设值,则确定所述两个访问地址对应同一个互联网应用;将所述两个访问地址中所述识别失败的记录对应的访问地址添加到所述互联网应用的地址库中。

结合第一方面,在第一种可能的实现方式中,所述根据所述两条记录对应的两个访问时刻计算所述两条记录对应的两个访问地址的相关系数包括:

计算所述两条记录对应的两个访问时刻的时间差;

将所述时间差与预设时间阈值进行比较;

若所述时间差小于或等于所述预设时间阈值,则所述两个访问地址的相关系数为P;若所述时间差大于所述预设时间阈值,则所述两个访问地址的相关系数为Q;其中,P>Q。

结合第一方面的第一种可能的实现方式,在第二种可能的实现方式中,根据所述两条记录对应的两个访问时刻计算所述两条记录对应的两个访问地址的相关系数还包括:

当计算得到的所述两个访问地址的相关系数有K个时,将所述K个相关系数的平均值作为所述两个访问地址的相关系数,K为大于1的整数。

结合第一方面或其上述可能的实现方式的任一种,在第三种可能的实现方式中,所述方法还包括:

对于所述识别失败记录中未被添加的访问地址,根据任意两个未被添加的访问地址对应的访问时刻计算所述任意两个未被添加的访问地址的相关系数;

若任意两个未被添加的访问地址的相关系数大于或等于所述预设值,则确定所述任意两个未被添加的访问地址对应同一个新的互联网应用并利用网络爬虫技术识别出所述新的互联网应用;将所述任意两个未被添加的访问地址添加到所述新的互联网应用的地址库中并更新所述地址信息库。

结合第一方面或其上述可能的实现方式的任一种,在第四种可能的实现方式中,其特征在于,所述方法还包括:

对于所述识别失败记录中未被添加的访问地址,利用网络爬虫技术识别出所述未被添加的访问地址对应的互联网应用并根据所述识别结果更新所述地址信息库。

第二方面,本发明实施例提供一种用于更新地址信息库的装置,所述装置包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国联合网络通信集团有限公司,未经中国联合网络通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510059620.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top