[发明专利]一种在线社交网络中热点事件数据存储管理方法及系统有效
申请号: | 201910396670.2 | 申请日: | 2019-05-14 |
公开(公告)号: | CN110134688B | 公开(公告)日: | 2021-06-01 |
发明(设计)人: | 毛爽;王铮;陈颖颖;方明哲;崔健;邵瑞航;胡长军 | 申请(专利权)人: | 北京科技大学 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/28;G06Q50/00 |
代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 在线 社交 网络 热点 事件 数据 存储 管理 方法 系统 | ||
1.一种在线社交网络中热点事件数据存储管理方法,其特征在于,包括:
基于HDFS分布式文件系统,对在线社交网络中热点事件的原始数据进行存储;在所述HDFS分布式文件系统中,同一热点事件的全部数据存放在同一路径下,即该事件所对应的事件路径下;同一事件中来源于不同平台的数据分平台存放在各自对应的路径中,即一个事件中某一平台中的数据,需存放在该事件所对应的事件路径下所对应的平台路径中;而同一平台中来源于不同文章的数据则分文章存放在各自对应的路径中,即一个事件中某平台中的某文章数据,需存放在该事件所对应的平台路径下所对应的文章路径中;
针对不同平台数据间存在的差异性,通过预设清洗及稀疏方式对数据进行清洗及稀疏,实现不同平台数据间的数据一致化;
对于热点事件的原始数据,根据其数据结构固定程度和数据大小特征,将各数据划分为文本类数据、图片类数据以及视频类数据;并对分类后的数据,依据各数据的数据类型,分别按预设分类存储方式设计不同的存储方案;
从预设维度建立数据存储模型,对所述HDFS分布式文件系统中所存储的数据进行解析,并按照所建立的数据存储模型完成数据的存储。
2.如权利要求1所述的在线社交网络中热点事件数据存储管理方法,其特征在于,所述通过预设清洗及稀疏方式对数据进行清洗及稀疏,实现不同平台数据间的数据一致化,包括:
针对相同数据在不同在线社交网络平台中有不同存储形式的情况,采用数据清洗的方式使不同平台中相同数据一致化;
针对不同在线社交网络平台中包含的数据不尽相同的情况,采用求取数据内容的并集并稀疏化各平台中数据的方式使不同平台中的数据一致化。
3.如权利要求1所述的在线社交网络中热点事件数据存储管理方法,其特征在于,所述依据各数据的数据类型,分别按预设分类存储方式设计不同的存储方案,包括:
对于文本类数据,保留其数据结构并将其存放至HBase数据库中;
对于图片类数据,将其直接存放至HBase表中的单元格内;
对于视频类数据,将其本身直接存放入HDFS分布式文件系统中,然后在HBase数据库中存放该视频类数据在HDFS分布式文件系统中的存放路径。
4.如权利要求1所述的在线社交网络中热点事件数据存储管理方法,其特征在于,所述从预设维度建立数据存储模型,包括从实体维度出发建立实体维度的数据存储模型,所述实体维度的数据存储模型的建立过程为:
首先从热点事件的原始数据中分析并抽取出多个数据实体,所述数据实体包括:事件、参与者、报道以及评论;
然后描述各数据实体并分析各数据实体间的关系,完成所述实体维度的数据存储模型设计。
5.如权利要求4所述的在线社交网络中热点事件数据存储管理方法,其特征在于,所述从预设维度建立数据存储模型,还包括从事件逻辑属性维度出发建立事件逻辑属性维度的数据存储模型;
所述事件逻辑属性维度的数据存储模型的建立过程为:
首先从逻辑上分析得到用来完整描述一个事件的属性信息,所述属性信息包括事件的时间、地点、任务、起因、经过以及结果;
然后结合在线社交网络热点事件数据特征,将所述属性信息归类为事件的时间、地点、人物和子事件四个分类;并依据事件属性信息的分类,通过描述每一类属性和各类属性间的关系完成事件逻辑属性维度的数据存储模型设计。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京科技大学,未经北京科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910396670.2/1.html,转载请声明来源钻瓜专利网。