[发明专利]抓取第三方开放平台中用户动态的方法和装置有效
申请号: | 201210135768.0 | 申请日: | 2012-05-03 |
公开(公告)号: | CN102694847A | 公开(公告)日: | 2012-09-26 |
发明(设计)人: | 国兴旺 | 申请(专利权)人: | 北京新媒传信科技有限公司 |
主分类号: | H04L29/08 | 分类号: | H04L29/08 |
代理公司: | 北京市隆安律师事务所 11323 | 代理人: | 权鲜枝 |
地址: | 100089 北京市海淀区万*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 抓取 第三 开放 平台 用户 动态 方法 装置 | ||
技术领域
本发明涉及互联网技术领域,特别涉及一种抓取第三方开放平台中用户动态的方法和装置。
背景技术
随着互联网的发展,越来越多的互联网应用出现,微博、社交网络等新兴的产品已经在近几年来成为网民生活的一部分。在中国,几家大的互联网公司,例如新浪、百度、淘宝和腾讯等也在一些关键领域竞争,而合作共赢已经成为一种新的发展趋势。合作的深度发展就是将自己已有的资源开放出去,相互利用对方的优势来发展自己的业务,从而达到利润最大化。资源开放的主要形式就是基于开放平台的各种应用。
一方开放平台中的某些互联网应用,会需要基于合作方开放平台提供的海量内容进行深度加工处理,例如,社交平台中的一些互联网应用会需要对微博平台中的用户动态(Feed)进行深度加工处理。现有绝大多数开放平台都是基于调用者拉(Pull)的模式实现海量内容的传递,由调用者发出请求,被请求方根据请求将数据发送给调用者。
现有的这种处理方式,合作方反馈的内容通常包含了过多的无效信息,不但导致资源浪费,且增加了数据传输的难度;并且,如果在用户使用合作方的内容时再去获取这些内容,造成延迟性比较大,如果对所有用户的内容实时抓取,性能要求又过高,在实际中的可行性较小。
发明内容
本发明提供的一种抓取第三方开放平台中用户动态的方法和装置,以解决现有方案中信息获取延迟性较大、资源浪费较严重的问题等。
为达到上述目的,本发明实施例采用了如下技术方案:
本发明实施例提供了一种抓取第三方开放平台中用户动态的方法,建立用户的用户标识和用户信息之间的对应关系,利用轮询队列存储所述用户标识,并根据所述对应关系存储所述用户信息,所述方法还包括:
对所述轮询队列进行轮询,在轮询队列中利用用户标识提取用户信息,并根据抓取调度策略和用户信息确定当前所需抓取的用户,其中,所述用户信息包括用户绑定在第三方开放平台上的授权信息;
利用当前所需抓取的用户的授权信息,通过调用第三方开放平台的API,在第三方开放平台抓取相应的用户动态。
本发明实施例还提供了一种抓取引擎装置,所述抓取引擎装置包括:
抓取缓存器,用于建立用户的用户标识和用户信息之间的对应关系,利用轮询队列存储所述用户标识,并根据所述对应关系存储所述用户信息;
抓取调度单元,用于对所述轮询队列进行轮询,在轮询队列中利用用户标识提取用户信息,并根据抓取调度策略和用户信息确定当前所需抓取的用户,其中,所述用户信息包括用户绑定在第三方开放平台上的授权信息;
抓取执行单元,用于利用当前所需抓取的用户的授权信息,通过调用第三方开放平台的API,在第三方开放平台抓取相应的用户动态。
本发明实施例的有益效果是:
本发明实施例通过在开放平台已经建立起来的用户绑定关系来实现对开放平台中用户动态的抓取,解决了百万级绑定用户的用户动态抓取问题。并且,本方案通过抓取调度策略和用户信息对所需抓取的用户进行筛选,能够在保证实时性的同时,降低对性能的要求,且避免了抓取时出现过多无效信息,提高了数据抓取的效率。
附图说明
图1为本发明实施例一提供的一种抓取第三方开放平台中用户动态的方法流程图;
图2为本发明实施例二提供的一种本开放平台从微博开放平台抓取海量内容的流程示意图;
图3为本发明实施例二提供的用户信息的结构示意图;
图4为本发明实施例二提供的轮询队列结构示意图;
图5为本发明实施例二提供的抓取引擎的逻辑架构示意图;
图6为本发明实施例三提供的抓取引擎装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
参见图1,为本发明实施例一提供的一种抓取第三方开放平台中用户动态的方法流程图,包括如下处理:
100:建立用户的用户标识和用户信息之间的对应关系,利用轮询队列存储所述用户标识,并根据所述对应关系存储所述用户信息。具体的,该对应关系可以采用哈希(Hash)关系。
101:对所述轮询队列进行轮询,在轮询队列中利用用户标识提取用户信息,并根据抓取调度策略和用户信息确定当前所需抓取的用户,其中,所述用户信息包括用户绑定在第三方开放平台上的授权信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京新媒传信科技有限公司,未经北京新媒传信科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210135768.0/2.html,转载请声明来源钻瓜专利网。