[发明专利]一种基于用户关联关系的微博数据采集方法在审
申请号: | 201410058585.2 | 申请日: | 2014-02-20 |
公开(公告)号: | CN103810283A | 公开(公告)日: | 2014-05-21 |
发明(设计)人: | 王磊;林俊杰;王飞跃;曾大军;祖全楠;毛文吉 | 申请(专利权)人: | 东莞中国科学院云计算产业技术创新与育成中心;中国科学院自动化研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 汤东凤 |
地址: | 523808 广东省东莞市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 用户 关联 关系 数据 采集 方法 | ||
技术领域
本发明涉及数据采集技术领域,尤其是一种基于用户关联关系的微博数据采集方法。
背景技术
随着互联网时代的到来以及移动设备的普及,人们越来越多地使用身边的信息传输媒介,如:个人计算机銓智能手机等,在互联网中与他人分享自己的近况銓观点。微博,作为一个基于用户关系的信息分享銓传播以及获取平台,在最近的几年中得到了极其迅猛的发展,微博已经成为全世界的网民们表达意愿銓分享心情的重要渠道。
如今,针对微博数据的采集主要是通过两种方式:网络爬虫和微博API。针对新浪微博,廉捷等人分别实现了基于新浪微博API的数据采集以及基于网络爬虫的页面解析,通过对这两种方式获取到的实验数据进行比较,他们得出结论:网络爬虫能够获得较大信息量的数据,而新浪API方式能够获得更加全面的用户信息以及用户的最新微博,并且API返回的结果文件大小较小。廉捷等人最后也提出了一套结合API与网络爬虫的微博数据挖掘方案,然而,该方案只是一个原型,并不能实际应用于对用户微博数据的大规模采集。
针对新浪微博API的请求次数限制和返回结果的大小限制,周鑫等人通过在程序中设定定时器等方法,设计了采用新浪微博API的数据挖掘算法,对用户的关注网络銓粉丝网络和双向关注网络进行数据挖掘,并根据挖掘结果构建了新浪微博用户的网络结构图。该算法较适用于采集用户关系,但却并不适用于采集大量的用户微博信息,并且由于定时器的存在,该算法的数据采集效率较为低下。
目前,在针对关键词的微博内容搜索方面,新浪微博和搜狐微博的关键词搜索引擎对每个关键词的搜索结果上限约为1000条左右,网易微博关键词搜索引擎对每个关键词的搜索结果上限约为900条左右,腾讯微博关键词搜索引擎对每个关键词的搜索结果上限约为750条左右。由此可见,目前大多数微博搜索引擎向用户展示的关键词搜索结果数量十分有限,无法满足获取充足的微博关键词搜索结果这一需求。同时,微博搜索引擎对一些合法关键词的微博搜索结果进行了屏蔽,从而给包含这些关键词的微博信息采集工作带来了较大的困难。
发明内容
本发明解决的技术问题在于提供一种基于用户关联关系的微博数据采集方法;解决现有微博搜索引擎展示给用户的关键词搜索结果数量十分有限;以及,现有微博搜索引擎对部分合法关键词进行屏蔽从而导致无法获得包含被屏蔽关键词的微博数据问题。
本发明解决上述技术问题的技术方案是:
采用网络爬虫的方式对微博平台上包含特定关键词的微博信息进行采集,在采集的过程中以用户之间的关联关系作为微博爬虫的链接,首先根据指定的关键词获取微博爬虫的种子用户,然后通过抓取网页的方式获取用户的微博页面,采集其中包含关键词的微博信息,选取出具有潜力的用户,并同时采集有潜力用户的关联关系以获取微博爬虫的下一级链接,从而实现微博信息的自动搜索与采集。
所述的微博信息包括微博id銓博主信息銓博文内容銓发布时间銓微博来源銓评论信息等;用户关联关系包括用户之间的粉丝关系和微博评论关系。
选取具有潜力用户的方法是判断用户是否发表过包含关键词的微博,若发表过,则说明该用户是有潜力的;否则,说明该用户没有继续深入搜索的潜力。
获取微博爬虫下一级链接的方法是对于已经采集到的每条包含关键词的微博,将该微博的所有评论者和该微博博主的所有粉丝作为微博爬虫的下一级链接。
所述的获级微博爬虫种子的方法是判断关键词是否被屏蔽,若关键词被屏蔽,则以重点博主作为微博爬虫的种子;若关键词未被屏蔽,则将微博搜索页面上该关键词所有搜索结果的评论者和所有博主的粉丝作为微博爬虫的种子。
所述的判断关键词是否被屏蔽的方法是若关键词的微博搜索结果页面上出现类似“根据相关法律法规和政策,搜索结果未予显示”的语句,则表示该关键词被屏蔽;否则,说明该关键词未被屏蔽;
所述的重点博主由人为设定,在开始数据采集前已存入数据库中,可以有多个重点博主。
本发明方法的有益效果如下:
1銓基于用户之间的粉丝关系和微博评论关系,在已有微博搜索结果的基础上进行逐层深入的搜索,自动采集包含关键词的微博信息,在搜索结果的数量上相比于现有各大微博的搜索页面具有比较明显的优势。
2銓针对被微博搜索引擎屏蔽的关键词,采用事先设定的重点博主库中的微博用户作为网络爬虫的种子,实现了针对屏蔽词的微博内容搜索。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东莞中国科学院云计算产业技术创新与育成中心;中国科学院自动化研究所,未经东莞中国科学院云计算产业技术创新与育成中心;中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410058585.2/2.html,转载请声明来源钻瓜专利网。