[发明专利]一种在线社交网络中热点事件数据存储管理方法及系统有效
申请号: | 201910396670.2 | 申请日: | 2019-05-14 |
公开(公告)号: | CN110134688B | 公开(公告)日: | 2021-06-01 |
发明(设计)人: | 毛爽;王铮;陈颖颖;方明哲;崔健;邵瑞航;胡长军 | 申请(专利权)人: | 北京科技大学 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/28;G06Q50/00 |
代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 在线 社交 网络 热点 事件 数据 存储 管理 方法 系统 | ||
本发明提供一种在线社交网络中热点事件数据存储管理方法及系统,针对在线社交网络热点事件数据所具有的数据量大、跨平台数据间存在差异性、数据类型多以及数据价值密度低的问题,分别提出了分布式文件系统存储数据策略、清洗并稀疏多平台数据策略、划分数据类别的多种存储模式策略以及多维度的数据存储模型策略。有效解决了因在线社交网络热点事件数据本身的数据特征所带来的数据存储问题,透明化了不同在线社交网络平台中的热点事件数据,为有关在线社交网络热点事件数据的相关研究提供了有效的数据支持。
技术领域
本发明涉及数据存储技术领域,特别是指一种基于HBase数据库以及HDFS分布式文件系统的在线社交网络中热点事件数据存储管理方法及系统
背景技术
近些年来,随着互联网的迅速发展和智能手机的普及,在线社交网络得到了迅猛的发展和普及,逐渐成为人们日常生活中必不可少的部分。各种在线社交网络平台同样也成为当下人们进行讨论热点事件的重要场所,由此产生了大量在线社交网络热点事件数据,并逐渐引起研究热点事件的相关学者和相关研究人员的重视。
至今,人们比较熟悉且广为使用的数据库仍然是关系型数据库,例如,Oracle数据库以及MySQL数据库等,此类数据库是建立在关系模型基础之上的数据库,它借助了集合代数等数学模型和方法来处理数据库中的数据。现实生活中所存在的各种实体以及实体间所存在的联系,在其中均用关系模型进行相应表示。关系模型的概念由就职于IBM的E.F.Codd博士在1970年首先提出,这一模型概念的提出奠定了关系型数据库的理论基础。关系型数据库技术出现在关系模型概念提出后的20世纪70年代,在经历了80年代的稳健发展后,到上世纪90年代已经比较成熟了。且因其本身模型理解难度不高、查询语句的上手和掌握难度不高以及其产品的逐渐成熟,关系模型逐渐成为近20余年数据库架构中所使用的主流模型。
然而,社交网络热点事件数据隶属大数据,也具备大数据的基本特征(4V),即数据量大(Volume)、数据类型多样化(Variety)、时效性要求高(Velocity)以及数据价值密度(Value)相对较低。在线社交网络热点事件数据的这些特征,为使用传统关系型数据库作为数据的存储管理技术带来了极大挑战。以新浪微博为例,据新浪官方公布数据可知,截止至2018年3月,微博月活跃人数已增加到4.11亿,日活跃用户增至1.84亿,单月微博产生量达数十亿。“春晚答题王”这一活动则累计吸引了2400万人参与。而在两会期间,微博平台上参与两会话题讨论人数逾亿,两会相关短视频的总播放量超过30亿次。仅新浪微博中社交网络热点事件数据便可达数十TB。这对传统RMDB在存储和检索数据的时间空间开销上是极大的挑战。新浪微博用户在微博平台上发表内容的形式多种多样,包括短文字、文章、图片、动图、视频以及链接等,存在异构性。而传统的关系型数据库仅擅长处理结构化数据。新浪微博等在线社交网络平台也并未对用户发表信息的内容作出限制,从而所产生数据的价值密度相对较低。如何去实现价值密度的浓缩,也为传统关系型数据库带来了挑战。而不同在线社交网络平台的数据还存在差异性,这也增加在线社交网络热点事件数据的复杂度,这无疑也让使用传统关系型数据库技术进行这类数据存储和管理的境况雪上加霜。
如何有效地克服因在线社交网络热点数据本身数据基本特征(数据量大、数据类型多、数据价值密度低以及跨平台数据间存在差异性)所带来的数据存储和管理上的困难,以及有效地浓缩其价值密度来为热点事件相关研究提供数据支持,成为了现如今亟待解决的问题。
发明内容
为解决上述技术问题,本发明提供一种在线社交网络中热点事件数据存储管理方法,所述方法包括:
基于HDFS分布式文件系统,对在线社交网络中热点事件的原始数据进行存储;在所述HDFS分布式文件系统中,同一热点事件的全部数据存放在同一路径下,同一事件中来源于不同平台的数据分平台存放在各自对应的路径中,而同一平台中来源于不同文章的数据则分文章存放在各自对应的路径中;
针对不同平台数据间存在的差异性,通过预设清洗及稀疏方式对数据进行清洗及稀疏,实现不同平台数据间的数据一致化;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京科技大学,未经北京科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910396670.2/2.html,转载请声明来源钻瓜专利网。