[发明专利]微博客数据采集方法及系统有效
申请号: | 201210011178.7 | 申请日: | 2012-01-13 |
公开(公告)号: | CN102609460A | 公开(公告)日: | 2012-07-25 |
发明(设计)人: | 程学旗;房伟伟;李静远;陈根宝;邢国亮;张凯;方滨兴 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 博客 数据 采集 方法 系统 | ||
技术领域
本发明涉及数据采集,尤其涉及微博客环境中的数据采集。
背景技术
微博客是一种互联网应用服务。它利用无线网络、有线网络、通信技术进行即时通讯,允许用户将自己的最新动态和想法以短信形式发送给手机和个性化网站群,而不仅仅是发送给个人。与一般的社交网络不同的是,微博客对每次发送的消息长度进行了限制,一般为140字节,降低了对用户语言编排组织的要求,之言片语的内容也方便用户及时更新自己的个人信息。国外的Twitter,国内的新浪微博、腾讯微博等都提供微博客的服务。
随着网络和移动设备的革新,微博客也进入了一个高速发展的阶段。国外的Twitter从2006年3月建立,至2011年9月,活跃用户的数量已经超过了1亿,每日消息发布量超过2.5亿条。国内的新浪微博也与2011年8月达到了2亿用户量,每日消息数量也达到了数千万。微博客迅速发展中产生的消息,包含着大量的研究和商业价值,那么,如何高效的获取微博客的消息成为每个研究者和公司首先要解决的问题。
微博客作为一种新型的社交网络,有其自身的独特特点,这些特点帮助微博客快速发展的同时也为数据采集增加了困难:
·单条信息短小,不足140字,但更新频繁;
·消息数量巨大,有价值的消息比例小;
·少部分活跃用户产生了大部分消息;
·用户总量高达数亿,用户类型多样;
·用户之间为单向联系,关注某人不需经对方同意,用户之间的关系极具跳跃性,一般社交网络的关系模型不能准确描述。
面对微博客的这些特点,现有的在整个因特网和传统社交网络的采集方法在应用到微博客数据采集时存在以下限制:
第一,传统的面向整个因特网的网页爬虫技术,采集周期较长,不能保证采集的实时性。在采集过程中,并不对用户进行区分,而微博客中消息量巨大但有价值的消息比例小,并且是由少部分活跃用户产生了大部分消息。因此将该方法应用于微博客数据采集时会导致采集时大量的资源浪费在价值不大的非活跃用户上。
第二,传统的使用微博服务提供商提供的第三方API的采集策略,由于对API调用次数存在限制,所以无法做到在大规模用户上实现高效、实时的采集。
另外,微博客页面是动态的,且更新频率很快,且数据量巨大,传统的采集方法,在保证数据完整性上存在困难,也就是其很难采集到反映微博当前状况的全部数据。
发明内容
因此,本发明的目的在于克服上述现有技术的缺陷,提供一种微博客数据采集方法,对大规模微博客用户的数据进行高效、实时、完整的采集。
本发明的目的是通过以下技术方案实现的:
一方面,本发明提供了一种微博客数据采集方法,该方法包括:
步骤1)采集初始的用户数据;
步骤2)从用户数据中提取用户特征;
步骤3)根据用户特征来确定用户的类型;
步骤4)对不同类型的用户的消息使用不同的采集策略进行实时采集。
上述方法中,还包括步骤5)定期地从经步骤4)采集的用户数据中提取用户特征,并基于所提取的用户特征重新确定用户的类型,以及响应于用户类型的变化来更新对该用户的采集策略。
上述方法中,用户特征可以包括:
1)、账户注册时间和最近登录微博客时间;
2)、关注数量与被关注数量;
3)、发送、转发和评论的消息的数量;
4)、发送的消息被评论和转发的数量;
上述方法中,步骤3)可以包括以下步骤:将其关注数量大于被关注数量、并且关注数量与被关注数量的差值的绝对值超过初始分类阈值的用户的类型确定为意见领袖;
将其关注数量小于被关注数量、并且关注数量与被关注数量的差值的绝对值超过初始分类阈值的用户的类型确定为聊天者;
将其余用户的类型确定为浏览者。
上述方法中,步骤3)还可以包括:将聊天者中其消息被转发和评论的次数大于其所发布的消息的数量、且二者差值的绝对值超过二次分类阈值的用户的类型重新确定为意见领袖;
将浏览者中其消息被转发和评论的次数大于其所发布的消息的数量、且二者差值的绝对值超过二次分类阈值的用户的类型重新确定为聊天者。
上述方法中,步骤3)还可以包括根据所提取的用户特征对用户进行过滤的步骤。
上述方法中,过滤掉的用户为已失效账户、新注册的账户和长时间未登录微博客系统的账户。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210011178.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置