[发明专利]过往微博数据收集与处理方法有效

申请号：	201410254061.0	申请日：	2014-06-09
公开（公告）号：	CN104111971B	公开（公告）日：	2018-03-13
发明（设计）人：	任福继;刘宁;全昌勤;魏希权	申请（专利权）人：	合肥工业大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	安徽合肥华信知识产权代理有限公司34112	代理人：	余成俊
地址：	230009 ***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种过往微博数据收集与处理方法，首先获取活跃微博用户ID，然后获取活跃微博用户微博数据，最后对微博数据进行处理。本发明改进了新浪第三方API，以弥补微博接口获得数据精确度的不足，能够满足过往微博数据收集与处理的要求。
搜索关键词：	过往数据收集处理方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

过往微博数据收集与处理方法，其特征在于：可以获得指定过往时间点或时间段内的微博数据；包括以下步骤：(1)、获取活跃微博用户ID：调用微博第三方API接口获取微博广场上公开的微博数据，公开的微博数据为微博作者的用户信息字段，其中包括用户UID、用户所在城市ID的信息；根据获取到的微博广场上公开的微博数据，提取出用户UID，去重后即为可用的活跃微博用户ID；(2)、获取活跃微博用户微博数据：将获取到的用户UID拆分为7个本地用户UID库，分别使用7个微博第三方API Token并行运行，提升单位时间内获取微博的数量；然后根据用户UID账号，调用微博第三方API应用接口获得对应账号下的所有微博数据文件，微博数据文件包括微博创建时间、微博信息内容、微博来源、微博作者的用户信息字段，微博数据文件保存为UTF‑8格式的TXT文本文件，设微博数据文件为D；(3)、微博数据处理：根据相关热点事件，指定热点事件种子关键词，确定热点事件发生时间段；根据确定的热点事件时间段，从本地的微博数据文件D中提取指定事件时间段内的微博文本数据；微博文本数据包括微博创建时间、微博信息内容、用户昵称、用户所在地；提取后的微博精细内容文件本地保存为UTF‑8格式的TXT文本文件，设微博精细内容文件为根据用户所在地，对微博精细内容文件再次提取拆分为文本文件Dall以及文本文件类其中文本文件Dall为该热点事件对应的全国微博数据，文本文件类为该热点事件对应的某城市微博数据，i≠0，为对应的城市代码；文本文件Dall以及文本文件类中微博数据包括微博创建时间、微博信息内容，根据确定的热点事件发生时间段，进一步将文本文件Dall与文本文件类拆分为该热点事件对应的全国微博数据单日数据集及该热点事件对应的某城市微博单日数据集其中t为日期号。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于合肥工业大学，未经合肥工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201410254061.0/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]过往微博数据收集与处理方法有效

专利文献下载