[发明专利]一种融合多种机器学习算法的固态硬盘热数据识别方法有效
申请号: | 201710022404.4 | 申请日: | 2017-01-12 |
公开(公告)号: | CN106874213B | 公开(公告)日: | 2020-03-20 |
发明(设计)人: | 王发宽;姚英彪;周杰;陈功 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F12/02 | 分类号: | G06F12/02;G06F3/06;G06K9/62 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 杜军 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 多种 机器 学习 算法 固态 硬盘 数据 识别 方法 | ||
1.一种融合多种机器学习算法的固态硬盘热数据识别方法,其特征在于包括以下步骤:
步骤1、使用K-means聚类根据当前负载大小进行分类;利用K-means聚类算法根据当前待分类的请求的负载大小对数据进行分类,分为C1和C2两类,若当前待分类的请求负载大小属于C1,则判定当前待分类的请求为热数据;反之为冷数据;
步骤2、使用K近邻分类算法根据当前待分类的请求的逻辑地址进行分类;
由K-means聚类方法得到两个已知类别属性的两类样本C1和C2,然后根据K近邻分类算法,从C1和C2中取K个与当前待分类的请求的逻辑页号LPN最接近的请求,然后根据K个请求的LPN中一半以上LPN所属的类别来判定当前待分类的请求的LPN所属的类别;如果K个LPN中一半以上属于C1,则当前待分类的请求的LPN属于C1为热数据;否则,属于C2为冷数据;
步骤3、对比步骤1和步骤2的两种分类方式对当前待分类的请求的冷热性的分类结果;
如果K-means聚类和K近邻分类两种方式对当前待分类的请求的类别的分类结果一致,则识别过程结束;如果不一致,则执行步骤4;
步骤4、采用最近邻原则对分类结果进行修正;
从K个最近邻的LPN中找到与当前待分类的请求的LPN的距离dist最小的LPN,以该LPN所属的类别来作为当前待分类的请求的类别;
步骤1具体实现如下:使用K-means聚类根据当前负载大小进行分类;当请求R1(w,42,7)到来时,K-means根据负载大小进行冷热数据识别,R1的请求大小为7,离C2的聚类中心近,由K-means聚类算法判别为C2类,K-means算法的具体流程如下:
步骤1.1:初始化2个聚类中心(m1,m2);
步骤1.2:对每个请求R,根据请求大小找到离它最近的聚类中心,将其分配到该类中;
步骤1.3:重新计算C1和C2的聚类中心,i=1,2;
步骤1.4:计算聚类误差平方和准则函数,
步骤1.5:直到f值收敛,则输出C1、C2和m1、m2,算法结束;否则,重复步骤1.2和步骤1.3,直到f收敛;
步骤2具体实现如下:使用K近邻分类对当前负载逻辑地址进行分类,根据r1的LPN采用K近邻分类算法从C1和C2中找到的5个最近邻LPN为:41、41、38、35、53,因为5个最近邻有3个为C1类,判定R1为C1类,K近邻分类算法的具体流程如下:
步骤2.1:初始化K值;
步骤2.2:计算当前待分类的请求的LPN与C1、C2中每个样本的LPN之间的距离dist;样本间的“近邻”使用欧式距离测量,设两个样本的逻辑地址LPN分别为x和x’,则x与x’之间的欧式距离定义为:dist(x,x')=|x-x'|;
步骤2.3:重复步骤2.2直到计算完当前待分类的请求的LPN与所有样本的LPN间的距离dist;
步骤2.4:对所有的dist进行升序排列,选出前K个最近邻的样本;
步骤2.5:统计K个最近邻样本中每个类别出现的次数;
步骤2.6:选择出现频率最大的类别作为当前待分类的请求的类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710022404.4/1.html,转载请声明来源钻瓜专利网。