[发明专利]一种微博数据获取方法、装置及舆情分析方法有效
申请号: | 201510257947.5 | 申请日: | 2015-05-19 |
公开(公告)号: | CN104954234B | 公开(公告)日: | 2018-08-14 |
发明(设计)人: | 张玉清;李北格;周传锋 | 申请(专利权)人: | 中国地质大学(北京) |
主分类号: | H04L12/58 | 分类号: | H04L12/58;H04L29/06;G06F17/30 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 姜燕;王卫忠 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 微博 数据获取 舆情分析 网络舆情信息 存储系统 模拟用户 内容存储 实时获取 账号登录 登录 好友 分组 发布 | ||
本发明实施例公开了一种微博数据获取方法、装置及舆情分析方法,其中微博数据获取方法包括:采用模拟用户登录的方式利用注册的至少一个微博账号登录到微博平台;基于关注‑分组的方式分别接收所述至少一个微博账号的每个预先设定的组内关注好友所发布的微博内容;将所述微博内容存储到存储系统中。本发明实施例的技术方案能实时获取完整的微博数据,进一步可以获得及时、全面、准确的网络舆情信息。
技术领域
本发明涉及计算机应用技术领域,具体涉及一种微博数据获取方法、装置及舆情分析方法。
背景技术
随着web2.0时代的到来,微博的使用人群数量逐渐庞大,状态信息更新频繁、信息传播迅速,并且微博平台媒介用户占有率相对集中,因此基于微博数据的分析研究是十分值得关注的研究方向。
微博有着广大的用户基础,舆情信息在微博平台快速的产生和传播,微博用户迅猛增长,基于微博数据的分析已经引起社会的广泛关注。
为了有效地利用微博分析社会舆情,微博数据的获取显得尤为重要。例如新浪微博上活跃着大量的用户,每天产生近1亿的微博内容。微博用户分为普通用户和认证用户,认证用户中拥有众多粉丝、人气较高、具有一定号召力和影响力的名人又被称为意见领袖。他们发布或转发的微博更容易成为热点微博,实时获取意见领袖的微博数据是进行舆情分析的重要方法之一。
目前获取意见领袖的微博数据主要有两种方式:一种方式是通过微博平台提供的第三方程序接口获取微博数据,该程序接口可以获得指定用户的微博,方便快速地批量获取需要的微博数据,但是微博平台都会限定微博数据的采集速率,分别在用户维度和IP维度限定微博数据的采集速率,鉴于该程序接口限制用户每个小时只能请求一定的次数,这样只能抓取有限的数据,而且接口升级以后,这个API接口已经无法获得除授权用户以外的其他微博用户的微博信息。微博平台的这些限制,导致获取数据有限,难以保障舆情分析的准确性。另一种方式是使用定向网络爬虫技术获取微博数据,首先将需要访问的意见领袖微博的URL形成URL列表,通过网络爬虫依次读取URL列表中的记录,获取意见领袖的个人简介和微博列表。网络爬虫通过周而复始地读取URL列表,完成对于意见领袖所发微博数据的获取。这种方式虽然可以获得比较完整的数据,但是数据捕获的周期为读取整个URL列表的时间,因此难以实现实时舆情分析。而且频繁地访问不同意见领袖的微博页面,将面临被微博平台封号的危险,一旦账号被封,将无法再获取任何数据。
发明内容
有鉴于此,本发明实施例提供一种微博数据获取方法、装置及舆情分析方法,通过实时获取完整的微博数据,以及时、全面地掌握网络舆情动态。
本发明实施例采用以下技术方案:
第一方面,本发明实施例提供了一种微博数据获取方法,包括:
采用模拟用户登录的方式利用注册的至少一个微博账号登录到微博平台;
基于关注-分组的方式分别接收所述至少一个微博账号的每个预先设定的组内关注好友所发布的微博内容;
将所述微博内容存储到存储系统中。
进一步地,所述至少一个微博账号分别关注不同属性的微博用户,或分别关注相同属性的不同微博用户。
进一步地,所述组内关注好友的划分是依据关注好友发布微博内容的活跃程度确定。
进一步地,其中所述关注好友按不同活跃度分为多个组,且获取微博内容包括按组进行获取微博内容。
进一步地,所述微博数据获取方法还包括:利用微博API接口定时和/或定量添加微博好友关注列表。
进一步地,所述微博数据获取方法还包括:设定间隔时间定时刷新关注好友消息列表,并只获取最新的微博消息列表。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质大学(北京),未经中国地质大学(北京)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510257947.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种环氧大豆油高效制备工艺
- 下一篇:序列号的加密和解密方法及其装置