[发明专利]地址信息库的更新方法和装置有效

申请号：	201510059620.7	申请日：	2015-02-04
公开（公告）号：	CN104636458B	公开（公告）日：	2018-03-23
发明（设计）人：	王蓉;王志军	申请（专利权）人：	中国联合网络通信集团有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京安信方达知识产权代理有限公司11262	代理人：	李丹,栗若木
地址：	100033 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	地址信息库更新方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及互联网技术领域，具体涉及一种地址信息库的更新方法和装置。

背景技术

移动互联网用户行为分析是指以识别用户使用的互联网应用(例如微信、QQ、微博、新浪网以及淘宝网等等)为基础，通过对用户相关的数据进行应用识别以识别出用户所访问的互联网应用类别和频度，从而得到用户的上网喜好等信息。其中，应用识别是指将用户访问互联网的记录中的访问的互联网协议(Internet Protocol，IP)地址或访问的统一资源定位符(Uniform Resource Locator，URL)与互联网应用的地址信息库中的记录进行匹配计算，该地址信息库中存储与互联网应用对应的地址信息，地址信息包括：该互联网应用对应的IP地址和/或该互联网应用对应的URL(注：某些互联网应用可能只有对应的IP地址而没有对应的URL)，如果用户访问互联网的记录(例如访问的URL)与该地址信息库中某个互联网应用的地址信息(例如该互联网应用对应的URL)匹配成功，则成功识别出该记录是用户访问该互联网应用的记录。

随着时间的发展，互联网应用的地址信息会发生变化，例如新增的可供访问的IP地址或URL，因此，互联网应用的地址信息库就需要根据实际情况不断更新。现有的技术方案是使用网络爬虫技术来更新和维护地址信息库。网络爬虫是一个自动提取网页的程序，它的基本原理为：将给定的网址信息作为目标地址，将目标地址放入待抓取队列中，从待抓取队列依次读取，并将队列中待抓取的目标地址交给网页下载器，网页下载器将目标地址对应的网页的页面内容下载下来，对页面内容进行分析可以确定该页面对应的应用以及该页面中与目标地址相关的地址。由于网络爬虫会消耗网站的资源，容易引起网站访问阻塞，一些互联网应用对网络爬虫进行了屏蔽。因此，现有的技术方案存在以下问题：无法将所有互联网应用的所有地址信息收集完整，地址信息库的准确性较低。

发明内容

本发明实施例提供的地址信息库的更新方法和装置，能够将所有互联网应用的所有地址信息收集完整，提高地址信息库的准确性。

第一方面，本发明实施例提供一种地址信息库的更新方法，所述方法包括：

根据地址信息库对用户访问互联网的记录进行应用识别，每条记录中包括访问地址和访问时刻，查找出识别成功的记录以及识别失败的记录；

对于由任意一条识别成功的记录和任意一条识别失败的记录组成的两条记录，根据所述两条记录对应的两个访问时刻计算所述两条记录对应的两个访问地址的相关系数；

若所述两个访问地址的相关系数大于或等于预设值，则确定所述两个访问地址对应同一个互联网应用；将所述两个访问地址中所述识别失败的记录对应的访问地址添加到所述互联网应用的地址库中。

结合第一方面，在第一种可能的实现方式中，所述根据所述两条记录对应的两个访问时刻计算所述两条记录对应的两个访问地址的相关系数包括：

计算所述两条记录对应的两个访问时刻的时间差；

将所述时间差与预设时间阈值进行比较；

若所述时间差小于或等于所述预设时间阈值，则所述两个访问地址的相关系数为P；若所述时间差大于所述预设时间阈值，则所述两个访问地址的相关系数为Q；其中，P＞Q。

结合第一方面的第一种可能的实现方式，在第二种可能的实现方式中，根据所述两条记录对应的两个访问时刻计算所述两条记录对应的两个访问地址的相关系数还包括：

当计算得到的所述两个访问地址的相关系数有K个时，将所述K个相关系数的平均值作为所述两个访问地址的相关系数，K为大于1的整数。