[发明专利]识别大数据存储系统中的关联性存储设备的方法及系统有效
申请号: | 201811411598.8 | 申请日: | 2018-11-25 |
公开(公告)号: | CN109542909B | 公开(公告)日: | 2023-04-14 |
发明(设计)人: | 请求不公布姓名 | 申请(专利权)人: | 北京博艺网讯科技有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/28 |
代理公司: | 北京名实专利代理事务所(特殊普通合伙) 11802 | 代理人: | 张亚非 |
地址: | 100123 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种识别大数据存储系统中的关联性存储设备的方法及系统,其中方法包括:当接收到在大数据存储系统的多个存储设备中识别关联性存储设备的指示时,将大数据存储系统的统计时间区间划分为多个时间单元,将每个存储设备的每个时间单元的文件组中在时间单元内的被访问次数最多的数据文件选择作为基准数据文件并将其余的数据文件选择作为参考数据文件,确定与每个存储设备相关联的高关联度的时间单元的数量、中关联度的时间单元的数量以及低关联度的时间单元的数量;计算多个存储设备中每个存储设备的时间关联性系数,将时间关联性系数大于关联性阈值的存储设备确定为数据文件的访问具有时间关联性的存储设备。 | ||
搜索关键词: | 识别 数据 存储系统 中的 关联性 存储 设备 方法 系统 | ||
【主权项】:
1.一种识别大数据存储系统中的关联性存储设备的方法,所述方法包括:当接收到在大数据存储系统的多个存储设备中识别关联性存储设备的指示时,读取大数据存储系统内信息记录设备中的设备信息文件,对所述设备信息文件进行解析以确定大数据存储系统中存储设备的数量SN;将大数据存储系统的统计时间区间划分为多个时间单元,其中时间单元的数量为TN,根据多个时间单元中的每个时间单元和大数据存储系统内多个存储设备中每个存储设备在统计时间区间内的访问记录信息确定每个存储设备在统计时间区间内的时间统计文件,其中每个存储设备的时间统计文件包括多个时间记录和与每个时间记录相关联的文件信息表,其中每个时间记录的内容包括:时间单元的标识符、时间单元的开始时间、时间单元的结束时间、相关联的数据文件的总数量、时间单元内的被访问次数;与每个时间记录相关联的文件信息表的表名为时间记录中时间单元的标识符,并且文件信息表包括多个4元组,其中每个4元组为<数据文件的标识符、数据文件的摘要信息、数据文件在时间单元内的被访问次数、数据文件的存储尺寸>,根据文件信息表确定与每个时间单元相关联的多个数据文件并将与每个时间单元相关联的多个数据文件构成每个时间单元的文件组;将每个存储设备的每个时间单元的文件组中在时间单元内的被访问次数最多的数据文件选择作为基准数据文件并将其余的数据文件选择作为参考数据文件,其中每个时间单元的文件组具有一个基准数据文件和至少一个参考数据文件,将每个时间单元的文件组内基准数据文件的摘要信息与每个参考数据文件的摘要信息进行内容匹配以确定基准数据文件与每个参考数据文件的内容关联度,将每个存储设备的每个时间单元内基准数据文件与每个参考数据文件的内容关联度的平均值作为每个存储设备的每个时间单元的内容关联度TRij,其中i和j为自然数,存储设备的数量SN≥i≥1并且时间单元的数量TN≥j≥1;将内容关联度大于第一关联度阈值的时间单元确定为高关联度的时间单元HT,将内容关联度小于或等于第一关联度阈值并且大于第二关联度阈值的时间单元确定为中关联度的时间单元MT,以及将内容关联度小于或等于第二关联度阈值的时间单元确定为低关联度的时间单元LT,其中与每个存储设备相关联的多个时间单元包括至少一个高关联度的时间单元HT、至少一个中关联度的时间单元MT和至少一个低关联度的时间单元LT;确定与每个存储设备相关联的高关联度的时间单元的数量HTNi、确定与每个存储设备相关联的中关联度的时间单元的数量MTNi以及确定与每个存储设备相关联的低关联度的时间单元的数量LTNi;针对于大数据存储系统内多个存储设备中的第i个存储设备进行以下内容:确定每个高关联度的时间单元所涉及的数据文件的数量并将每个高关联度的时间单元所涉及的数据文件的数量进行累加以确定HTNi个高关联度的时间单元所涉及的数据文件的总数量HFNi,确定每个高关联度的时间单元内的被访问次数并将每个高关联度的时间单元内的被访问次数进行累加以确定HTNi个高关联度的时间单元的总被访问次数HANi,确定每个高关联度的时间单元所涉及的数据文件的总存储尺寸并将每个高关联度的时间单元所涉及的数据文件的总存储尺寸进行累加以确定HTNi个高关联度的时间单元所涉及的数据文件的总存储尺寸HSi;确定每个中关联度的时间单元所涉及的数据文件的数量并将每个中关联度的时间单元所涉及的数据文件的数量进行累加以确定MTNi个中关联度的时间单元所涉及的数据文件的总数量MFNi,确定每个中关联度的时间单元内的被访问次数并将每个中关联度的时间单元内的被访问次数进行累加以确定MTNi个中关联度的时间单元的总被访问次数MANi,确定每个中关联度的时间单元所涉及的数据文件的总存储尺寸并将每个中关联度的时间单元所涉及的数据文件的总存储尺寸进行累加以确定MTNi个中关联度的时间单元所涉及的数据文件的总存储尺寸MSi;确定每个低关联度的时间单元所涉及的数据文件的数量并将每个低关联度的时间单元所涉及的数据文件的数量进行累加以确定LTNi个低关联度的时间单元所涉及的数据文件的总数量LFNi,确定每个低关联度的时间单元内的被访问次数并将每个低关联度的时间单元内的被访问次数进行累加以确定LTNi个低关联度的时间单元内的总被访问次数LANi,确定每个低关联度的时间单元所涉及的数据文件的总存储尺寸并将每个低关联度的时间单元所涉及的数据文件的总存储尺寸进行累加以确定LTNi个低关联度的时间单元所涉及的数据文件的总存储尺寸LSi;计算多个存储设备中每个存储设备的时间关联性系数:其中DRi为第i个存储设备的时间关联性系数,HTNi为统计时间区间内与第i个存储设备相关联的高关联度的时间单元的数量,MTNi为统计时间区间内与第i个存储设备相关联的中关联度的时间单元的数量,TN为统计时间区间所包括的时间单元的总数量,TRij为第i个存储设备在统计时间区间内的第j个时间单元的内容关联度TRij;HFNi为第i个存储设备在统计时间区间内的所有高关联度的时间单元所涉及的数据文件的总数量;MFNi为第i个存储设备在统计时间区间内的所有中关联度的时间单元所涉及的数据文件的总数量,LFNi为第i个存储设备在统计时间区间内的所有低关联度的时间单元所涉及的数据文件的总数量;HANi为第i个存储设备在统计时间区间内的所有高关联度的时间单元的总被访问次数,MANi为第i个存储设备在统计时间区间内的所有中关联度的时间单元的总被访问次数,LANi为第i个存储设备在统计时间区间内的所有低关联度的时间单元的总被访问次数;HSi为第i个存储设备在统计时间区间内的所有高关联度的时间单元所涉及的数据文件的总存储尺寸,MSi为第i个存储设备在统计时间区间内的所有中关联度的时间单元所涉及的数据文件的总存储尺寸,LSi为第i个存储设备在统计时间区间内的所有低关联度的时间单元所涉及的数据文件的总存储尺寸;将大数据存储系统内多个存储设备中时间关联性系数大于关联性阈值的存储设备确定为数据文件的访问具有时间关联性的存储设备。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京博艺网讯科技有限公司,未经北京博艺网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811411598.8/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置