[发明专利]一种高可用的微博采集平台及其方法在审
申请号: | 201410535111.2 | 申请日: | 2014-10-11 |
公开(公告)号: | CN104375826A | 公开(公告)日: | 2015-02-25 |
发明(设计)人: | 王鹏 | 申请(专利权)人: | 北京中搜网络技术股份有限公司 |
主分类号: | G06F9/44 | 分类号: | G06F9/44;G06F17/30 |
代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
地址: | 100191 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 可用 博采 平台 及其 方法 | ||
技术领域
本发明属于一种微博采集系统,具体讲涉及一种高可用的微博采集平台及其方法。
背景技术
微博作为新生网络应用形式,在最近几年得到了迅猛的发展,随着微博用户群体的增长,微博数据的获取在微博搜索领域扮演着至关重要的角色。
目前微博网页抽取方式多样,主要分成两类:基于微博页面解析的数据获取方法和基于微博api数据获取方法。
基于微博页面解析的数据获取方法:这种方法主要是通过网络爬虫实现的,程序按照模板要求将网页内容以文本文件的形式保存在本地存储系统中,直到爬行完毕或者满足既定条件后终止。
基于微博api数据获取方法:这种方法主要是通过微博开放平台提供的接口,然后对得到的数据按照格式要求进行解析。
传统基于微博页面解析的数据获取方法,需要人工编写模板,如果模板有变化,维护成本比较高,且抽取得到的数据多种类型掺杂在一起,数据不够简洁,需要再写程序加以区分,效率比较低。
基于微博api数据获取方法,首先要解决的是用户认证的问题,并且四大微博媒体网站认证方法各不相同,这些不利于大规模数据抽取。
发明内容
针对现有技术的不足,本发明提出一种高可用的微博采集平台及其方法,对微博用户自动授权的机制,并对四大微博媒体网站的认证方法进行了规整,针对基于微博页面解析获取数据方法的缺陷,采用基于微博api数据获取方法,程序逻辑控制api调用方法和频率,获取json对象并解析实现数据高效获取。
本发明的目的是采用下述技术方案实现的:
一种高可用的微博采集平台,其改进之处在于,所述平台包括采集系统、管理后台和数据处理系统;
所述管理后台、采集系统和数据处理系统依次连接;
所述采集系统包括命令交互模块、处理模块、数据发送模块、ZDP调用模块、OpenAPI调用模块。
优选的,所述平台包括分布式登陆模块,通过Gearman对马甲进行多机分布式验证。
优选的,所述平台包括邮件发送模块,用于将日志统计信息发送到相关邮件组。
本发明基于另一目的提供的一种高可用的微博采集方法,其改进之处在于,所述方法包括:
(1)启动管理后台;
(2)执行管理后台指令并进行数据采集;
(3)马甲分布式登录和邮件发送。
优选的,所述步骤(1)包括
(1.1)对博主数据、应用数据、马甲数据分别进行增加、删除、修改和查询;
(1.2)马甲和应用进行关联;
(1.3)马甲登录验证;
(1.4)管理后台将上述操作拼接成指令形式发至采集后台。
优选的,所述步骤(2)包括
(2.1)采集后台以指令的形式接到博主、马甲和应用的相关操作,并将博主、马甲和应用的操作结果写入本地数据文件;
(2.2)采用马甲关注博主,并将数据更新到马甲文件中;
(2.3)授权流程读取马甲本地文件,调用登录模块对马甲进行登录认证;
(2.4)启动微博博文、博主信息和话题获取流程形成一个待下载的URL;
(2.5)将URL作为一个下载任务,提交至下载器,等待返回结果;
(2.6)读取返回结果数据,并将数据按照类型存到对应的类对象中;
(2.7)将解析出来的博主信息、博文和话题数据发送给数据处理。
进一步地,所述步骤(2.3)包括将认证参数一并写入马甲本地文件,用于授权后的应用调用微博开放API。
进一步地,所述步骤(2.4)包括,获取一个用于博文、博主信息和话题下载的马甲,判断马甲的调度周期,按照微博开放API的要求,拼接请求参数,参数从马甲文件中读取,API加请求参数形成一个待下载的URL。
进一步地,所述步骤(2.6)包括得到的返回结果是json格式的,将json数据加载到json容器中,从json容器中按字段读取数据,并将数据按照类型存到对应的类对象中。
优选的,所述步骤(3)马甲分布式登录包括采用多机登陆,登录任务分配采用Gearman。
优选的,所述步骤(3)邮件发送包括
(3.1)对采集系统采集数据的日志进行统计;
(3.2)对四大微博媒体网站的数据下载次数,下载失败次数,解析成功次数进行计算;
(3.3)生成采集系统的数据采集量报告;
(3.4)启动邮件发送程序,将报告发送给负责人。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中搜网络技术股份有限公司,未经北京中搜网络技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410535111.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:管路的夹持装置
- 下一篇:一种可拆卸自由组合的管夹装置