[发明专利]一种融合多种机器学习算法的固态硬盘热数据识别方法有效

申请号：	201710022404.4	申请日：	2017-01-12
公开（公告）号：	CN106874213B	公开（公告）日：	2020-03-20
发明（设计）人：	王发宽;姚英彪;周杰;陈功	申请（专利权）人：	杭州电子科技大学
主分类号：	G06F12/02	分类号：	G06F12/02;G06F3/06;G06K9/62
代理公司：	杭州君度专利代理事务所(特殊普通合伙) 33240	代理人：	杜军
地址：	310018 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种融合多种机器学习算法固态硬盘数据识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种融合多种机器学习算法的固态硬盘热数据识别方法，其特征在于包括以下步骤：

步骤1、使用K-means聚类根据当前负载大小进行分类；利用K-means聚类算法根据当前待分类的请求的负载大小对数据进行分类，分为C1和C2两类，若当前待分类的请求负载大小属于C1，则判定当前待分类的请求为热数据；反之为冷数据；

步骤2、使用K近邻分类算法根据当前待分类的请求的逻辑地址进行分类；

由K-means聚类方法得到两个已知类别属性的两类样本C1和C2，然后根据K近邻分类算法，从C1和C2中取K个与当前待分类的请求的逻辑页号LPN最接近的请求，然后根据K个请求的LPN中一半以上LPN所属的类别来判定当前待分类的请求的LPN所属的类别；如果K个LPN中一半以上属于C1，则当前待分类的请求的LPN属于C1为热数据；否则，属于C2为冷数据；

步骤3、对比步骤1和步骤2的两种分类方式对当前待分类的请求的冷热性的分类结果；

如果K-means聚类和K近邻分类两种方式对当前待分类的请求的类别的分类结果一致，则识别过程结束；如果不一致，则执行步骤4；

步骤4、采用最近邻原则对分类结果进行修正；

从K个最近邻的LPN中找到与当前待分类的请求的LPN的距离dist最小的LPN，以该LPN所属的类别来作为当前待分类的请求的类别；

步骤1具体实现如下：使用K-means聚类根据当前负载大小进行分类；当请求R1(w,42,7)到来时，K-means根据负载大小进行冷热数据识别，R1的请求大小为7，离C2的聚类中心近，由K-means聚类算法判别为C2类，K-means算法的具体流程如下：

步骤1.1：初始化2个聚类中心(m₁，m₂)；

步骤1.2：对每个请求R，根据请求大小找到离它最近的聚类中心，将其分配到该类中；

步骤1.3：重新计算C1和C2的聚类中心，i＝1,2；

步骤1.4：计算聚类误差平方和准则函数，

步骤1.5：直到f值收敛，则输出C1、C2和m₁、m₂，算法结束；否则，重复步骤1.2和步骤1.3，直到f收敛；

步骤2具体实现如下：使用K近邻分类对当前负载逻辑地址进行分类，根据r1的LPN采用K近邻分类算法从C1和C2中找到的5个最近邻LPN为：41、41、38、35、53，因为5个最近邻有3个为C1类，判定R1为C1类，K近邻分类算法的具体流程如下：

步骤2.1：初始化K值；