[发明专利]一种获取特定话题微博中PCU关联数据的方法有效
申请号: | 201510358782.0 | 申请日: | 2015-06-25 |
公开(公告)号: | CN104915438B | 公开(公告)日: | 2019-02-05 |
发明(设计)人: | 刘均;陈浩;米建红;吕彦章;占梦婷 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 陆万寿 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关联数据 微博 帖子 数据访问权限 构建 关联数据结构 身份验证信息 登录页面 关系构建 技术缺陷 逻辑关系 社交网络 页面下载 异质网络 用户好友 自动获取 自动填写 语义 结构化 数据集 发帖 下载 解析 页面 标签 网络 关联 融合 挖掘 话题 评论 分析 | ||
1.一种获取微博中特定话题PCU关联数据的方法,其特征在于:以新浪微博中元素间的逻辑关联关系为指导,自动有序地获取由帖子内容、帖子评论以及发帖用户所形成的PCU关联数据,表示为异质网络:
G=(P,C,U,f,g,h)
其中P、C与U分别代表帖子、帖子评论与发帖用户,f代表帖子与帖子评论的交互关系,g代表用户之间的好友关系,h代表用户和帖子、帖子评论之间的隶属关系;
该方法包含:数据访问权限获取、PCU关联数据页面下载与PCU关联数据的解析与构建,具体的过程如下:
Step1:数据访问权限获取:
在新浪微博登录页面http://weibo.com/login.php,利用web自动化测试工具selenium对标签<div class=inp username>和<div class=inp password>自动定位并填写用户名和密码,触发提交按钮<div class=info_listlogin_btn>,完成身份认证,取得访问数据的权限;
Step2:PCU关联数据页面下载:
1)通过微博的查询接口获取特定话题的所有帖子链接urlp,存入帖子链接队列池Urlp,从中逐一取出帖子链接urlp并依据其下载帖子页面Sp,存入帖子页面库Pagesp中;
2)从用户链接队列池Urlu、评论链接队列池Urlc、好友关系链接队列池Urlf中依次取出帖子的发帖用户主页链接urlu、评论链接urlc、好友关系链接urlf,启用三个线程分别下载用户页面Su、评论页面Sc和好友关系页面Sf,存入用户页面库Pagesu、评论页面库Pagesc及好友关系页面库Pagesf中;
Step3:PCU关联数据的解析与构建:
1)逐一从帖子页面库Pagesp中取出帖子页面Sp、从用户页面库Pagesu中取出用户页面Su、从评论页面库Pagesc中取出评论页面Sc、从好友关系页面库Pagesf中取出好友关系页面Sf,利用文档解析工具Beautifulsoup对Sp、Su、Sc和Sf进行分层定位解析,将所需标签值写入数据库,其中解析Sp得到的urlu、urlc和urlf,分别放入用户链接队列池Urlu、评论链接队列池Urlu和好友关系链接队列池Urlf;
2)由帖子与评论之间的交互关系得到帖子关系网络f,由用户的关注与粉丝信息得到用户好友关系网络g,由用户与帖子、帖子评论之间的隶属关系得到用户帖子隶属关系网络h;
最终得到异质网络G=(P,C,U,f,g,h)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510358782.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:信息处理方法及电子设备
- 下一篇:终端的指纹传感器的测试方法和系统