[发明专利]一种获取特定话题微博中PCU关联数据的方法有效
申请号: | 201510358782.0 | 申请日: | 2015-06-25 |
公开(公告)号: | CN104915438B | 公开(公告)日: | 2019-02-05 |
发明(设计)人: | 刘均;陈浩;米建红;吕彦章;占梦婷 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 陆万寿 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关联数据 微博 帖子 数据访问权限 构建 关联数据结构 身份验证信息 登录页面 关系构建 技术缺陷 逻辑关系 社交网络 页面下载 异质网络 用户好友 自动获取 自动填写 语义 结构化 数据集 发帖 下载 解析 页面 标签 网络 关联 融合 挖掘 话题 评论 分析 | ||
本发明公开了一种从微博中获取PCU关联数据的方法,解决现有技术不能获取有关联的微博帖子、评论、发帖人的技术缺陷,该方法包括:(1)数据访问权限取得,通过分析登录页面HTML标签,自动填写身份验证信息,取得数据访问权限;(2)PCU关联数据页面下载,依据微博页面的HTML结构及标签语义,以PCU数据的逻辑关系为指导,自动有序下载含有PCU关联数据的页面;(3)PCU关联数据结构化解析与构建,融合帖子关系、用户好友关系、用户帖子关系构建一个异质网络,即PCU关联数据网络。本发明能够自动获取新浪微博中的PCU关联数据,并构建结构化的关联数据网络,为后续的社交网络挖掘提供良好的数据集。
技术领域
本发明属于计算机社交网络数据获取技术,具体涉及一种自动获取微博中特定话题PCU关联数据的方法。
背景技术
互联网和Web2.0促使社交网络的迅猛发展,社交网络的用户量大、数据产生快速,日益积累的数据及其复杂的关联结构使得信息的获取和理解越来越困难。
在中国影响力最大的社交网络站点新浪微博中,含有大量潜在价值的信息,研究这些信息的重要方面是分析新浪微博中特定话题的帖子、帖子评论、发帖用户,这些数据散落在不同的页面中,造成人们无法从大量页面中迅速而准确地找到或理解这些有用的信息。
这些数据内在的关联结构中蕴藏着大量的有价值的信息,因而需要自动化的抽取方法从这些数据中获取结构较好的数据信息,并进行融合最终形成适应社交网络数据挖掘的新浪微博PCU关联数据。
申请人经过查新,没有找到有关从新浪微博中获取PCU关联数据的专利,因而检索了一篇与本专利相关的已授权专利:
1.基于社会标注的主题爬虫系统[专利号:ZL200910062020.0];在专利1中,系统充分利用了网页的社会标注进行网页相关性的判断,指导爬虫的爬行方向,对主题搜索引擎提供优质的网页数据内容。专利发明所述方法主要解决了网页爬虫的爬行方向,且依赖社会标注形成的知识库,但是该方法无法形成获取内容之间的关联关系,无法适应社交网络天然的复杂关联性,因而无法对社交网络数据进行有效得组织。
发明内容
本发明提出了一种新的数据获取策略,目的是提供一种自动获取微博中特定话题的PCU关联数据的方法,以非结构化数据中元素间逻辑上的关联关系指导数据获取路径,自动构建结构化数据集来描述元素及其关联关系,从而为进一步的数据分析和知识挖掘提供数据基础,具有元素关联度高、元素关系结构化强、获取效率高的特点。
为达到上述目的,本发明是采取如下技术方案予以实现的:
一种从微博中特定话题获取PCU关联数据的方法,包括如下过程:
(1)数据访问权限获取:通过分析获取到页面的HTML,识别出用户名和密码的提交标签,自动化填写并提交登录身份验证请求,完成模拟用户登录的过程。
(2)PCU关联数据页面下载:分析微博页面的HTML结构,得到该页面上每条帖子的帖子内容P、帖子评论C、发帖人U这三类实体的关联入口,然后通过上述三类实体的关联入口,同步获得帖子内容、帖子评论以及发帖人好友关系的HTML页面。
(3)PCU关联数据的结构化解析与构建:对得到的三类关联实体的HTML页面进行分层分类解析,依据关联实体间的隶属、共现关系,构建异质网络G=(P,C,U,f,g,h)。
过程(1)所述数据访问权限获取按照如下过程:
第1步:通过selenium启动IE9浏览器,自动进入新浪微博登陆主页http://www.weibo.com/login.php,定位输入帐户和密码的HTML标签<input name=username>和<input name=password>;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510358782.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:信息处理方法及电子设备
- 下一篇:终端的指纹传感器的测试方法和系统