[发明专利]分层方法、系统、电子设备及计算机可读存储介质在审
申请号: | 202011534103.8 | 申请日: | 2020-12-22 |
公开(公告)号: | CN112667154A | 公开(公告)日: | 2021-04-16 |
发明(设计)人: | 汪星宇 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F3/06 | 分类号: | G06F3/06;G06K9/62;G06N20/00 |
代理公司: | 北京中巡通大知识产权代理有限公司 11703 | 代理人: | 郭瑶 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分层 方法 系统 电子设备 计算机 可读 存储 介质 | ||
本发明公开了一种分层方法、系统、电子设备及计算机可读存储介质,所述分层方法用于分布式分层存储系统,包括以下步骤:将预获取的待存储文件的属性信息输入分层模型中,获得分层结果;其中,所述分层模型预先通过机器学习的方式获取了文件每个属性信息对文件分层的影响因子;基于文件每个属性信息的影响因子和待存储文件的属性信息完成存储分层。本发明提出的分层方法中,使用文件属性信息进行建模,通过机器学习获取每个属性信息对文件分层的影响因子;利用学习好的模型对存储系统的写入请求进行存储分层,能够使得分布式存储中性能指标与成本更好地平衡。
技术领域
本发明属于分布式分层存储技术领域,涉及分层领域,特别涉及一种用于分布式分层存储系统的分层方法、系统、电子设备及计算机可读存储介质。
背景技术
企业产品和服务的多样化导致了IT系统业务逻辑的日益复杂,各产品服务对存储的要求也不尽相同;分层存储是使用不同规格的硬件来存储不同要求的数据,实现成本和性能的平衡。目前,分布式企业存储数据量从PB级向EB、ZB级快速发展;业界使用的分层存储方法主要为使用缓存结合持久存储、静态分层存储方式。
现有缓存方式的分级存储有回写模式和只读模式;其中,回写模式客户端把数据写入缓存层,写入缓存层的数据随后迁移到存储层,然后从缓存层清除;读取的时候如果客户端要读取的数据在存储层,要把数据先迁移到缓存层,然后再发往客户端。只读模式客户端写数据到存储层,读数据的时候从存储层拷贝需要的数据到缓存层,根据定义好的规则,旧数据从缓存层删除。这种传统的分层存储存在使读写严重放大,以及某些场景会降低性能的缺陷。
现有静态分层存储方式是基于文件大小、用户配置等将不同文件存储到不同性能的存储层,其错误分层会导致高性能数据写入低性能存储层的性能劣化,以及低性能数据写入高性能存储层的成本上升的问题,无法灵活的适应日趋复杂的产品和服务。
发明内容
本发明的目的在于提供一种分层方法、系统、电子设备及计算机可读存储介质,以解决上述存在的一个或多个技术问题。本发明的分层方法、系统、电子设备或计算机可读存储介质,可用于分布式分层存储系统,能够使得分布式存储中性能指标与成本更好地平衡。
为达到上述目的,本发明采用以下技术方案:
本发明的一种分层方法,用于分布式分层存储系统,包括以下步骤:
获取多个文件的属性信息和分层结果,构建获得训练样本集;
对获得的训练样本集中的各个属性信息进行量化,获得各个属性信息的量化值;将文件的各个属性信息的量化值和分层结果作为输入,构建获得机器学习模型;采用训练样本集对机器学习模型进行有监督训练,迭代优化各个属性信息的影响因子,获得分层模型;
获取待存储文件的属性信息输入所述分层模型中,所述分层模型输出分层结果。
本发明的进一步改进在于,所述对获得的训练样本集中的各个属性信息进行量化,获得各个属性信息的量化值的步骤具体包括:
采用激活函数将属性信息的量化值收敛至预设区间;
或者,采用赋值法获得属性信息的量化值。
本发明的进一步改进在于,构建获得的机器学习模型表示为:ω1x1+ω2x2+…+ωnxn=y;
损失函数定义为:
式中,ω1、ω2、…、ωn表示需要迭代优化的影响因子;x1、x2、…、xn表示文件属性信息的量化值;Y表示实际分层结果;y表示计算分层结果;m表示计算的总组数;j表示第j组计算。
本发明的进一步改进在于,采用训练样本集对机器学习模型进行有监督训练时,使用随机梯度算法进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011534103.8/2.html,转载请声明来源钻瓜专利网。