[发明专利]一种基于用户关联关系的微博数据采集方法在审
申请号: | 201410058585.2 | 申请日: | 2014-02-20 |
公开(公告)号: | CN103810283A | 公开(公告)日: | 2014-05-21 |
发明(设计)人: | 王磊;林俊杰;王飞跃;曾大军;祖全楠;毛文吉 | 申请(专利权)人: | 东莞中国科学院云计算产业技术创新与育成中心;中国科学院自动化研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 汤东凤 |
地址: | 523808 广东省东莞市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 用户 关联 关系 数据 采集 方法 | ||
1.一种基于用户关联关系的微博数据采集方法,其特征在于:采用网络爬虫的方式对微博平台上包含特定关键词的微博信息进行采集,在采集的过程中以用户之间的关联关系作为微博爬虫的链接,首先根据指定的关键词获取微博爬虫的种子用户,然后通过抓取网页的方式获取用户的微博页面,采集其中包含关键词的微博信息,选取出具有潜力的用户,并同时采集有潜力用户的关联关系以获取微博爬虫的下一级链接,从而实现微博信息的自动搜索与采集。
2.根据权利要求1所述的的微博数据采集方法,其特征在于:所述的微博信息包括微博id、博主信息、博文内容、发布时间、微博来源、评论信息等;用户关联关系包括用户之间的粉丝关系和微博评论关系。
3.根据权利要求1中所述的的微博数据采集方法,其特征在于:选取具有潜力用户的方法是判断用户是否发表过包含关键词的微博,若发表过,则说明该用户是有潜力的;否则,说明该用户没有继续深入搜索的潜力。
4.根据权利要求2中所述的的微博数据采集方法,其特征在于:选取具有潜力用户的方法是判断用户是否发表过包含关键词的微博,若发表过,则说明该用户是有潜力的;否则,说明该用户没有继续深入搜索的潜力。
5.根据权利要求1至4任一项中所述的的微博数据采集方法,其特征在于:获取微博爬虫下一级链接的方法是对于已经采集到的每条包含关键词的微博,将该微博的所有评论者和该微博博主的所有粉丝作为微博爬虫的下一级链接。
6.根据权利要求1至4任一项所述的的微博数据采集方法,其特征在于:所述的获取微博爬虫种子的方法是判断关键词是否被屏蔽,若关键词被屏蔽,则以重点博主作为微博爬虫的种子;若关键词未被屏蔽,则将微博搜索页面上该关键词所有搜索结果的评论者和所有博主的粉丝作为微博爬虫的种子。
7.根据权利要求5所述的的微博数据采集方法,其特征在于:所述的获取微博爬虫种子的方法是判断关键词是否被屏蔽,若关键词被屏蔽,则以重点博主作为微博爬虫的种子;若关键词未被屏蔽,则将微博搜索页面上该关键词所有搜索结果的评论者和所有博主的粉丝作为微博爬虫的种子。
8.根据权利要求6所述的的微博数据采集方法,其特征在于:所述的判断关键词是否被屏蔽的方法是若关键词的微博搜索结果页面上出现类似“根据相关法律法规和政策,搜索结果未予显示”的语句,则表示该关键词被屏蔽;否则,说明该关键词未被屏蔽;
所述的重点博主由人为设定,在开始数据采集前已存入数据库中,可以有多个重点博主。
9.根据权利要求7所述的的微博数据采集方法,其特征在于:所述的判断关键词是否被屏蔽的方法是若关键词的微博搜索结果页面上出现类似“根据相关法律法规和政策,搜索结果未予显示”的语句,则表示该关键词被屏蔽;否则,说明该关键词未被屏蔽;
所述的重点博主由人为设定,在开始数据采集前已存入数据库中,可以有多个重点博主。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东莞中国科学院云计算产业技术创新与育成中心;中国科学院自动化研究所,未经东莞中国科学院云计算产业技术创新与育成中心;中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410058585.2/1.html,转载请声明来源钻瓜专利网。