[发明专利]基于邻域粗糙集和PCA融合的数据分类预测方法有效
申请号: | 201710237405.0 | 申请日: | 2017-04-12 |
公开(公告)号: | CN107016416B | 公开(公告)日: | 2021-02-12 |
发明(设计)人: | 王国胤;董建华;尚明生;严胡勇;王浩林;郑志浩;史晓雨 | 申请(专利权)人: | 中国科学院重庆绿色智能技术研究院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 尹丽云 |
地址: | 400714 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 邻域 粗糙 pca 融合 数据 分类 预测 方法 | ||
本发明提供一种基于邻域粗糙集和PCA融合的数据分类预测方法,包括采集样本数据,形成样本数据集;根据样本数据集,计算邻域粗糙集权重向量和主成分权重向量;通过对所述邻域粗糙集权重向量和主成分权重向量进行融合,获取融合后的权重向量,并对数据进行分类和预测;本发明中的基于邻域粗糙集和PCA融合的数据分类预测方法,通过将邻域粗糙集权重和PCA权重融合,可以有效解决现有监督学习和无监督学习数据分类处理能力不足问题,通过对样本数据集进行数据决策评价,为计算机数据处理系统能够挖掘更加有价值的知识提供了基础。
技术领域
本发明涉及计算机数据处理领域,尤其涉及一种基于邻域粗糙集和PCA融合的数据分类预测方法。
背景技术
近年来,信息化产业发展迅速,随着云时代的来临,大数据(Big data)也吸引了越来越多的关注,大数据并不在“大”,而在于“有用”,因此对大数据价值的挖掘比数量更为重要,如何在有限的时间范围内对数据进行处理、分析,进而获得更多的知识,是当前计算机数据处理系统所面临的严重挑战。
由于信息的不确定性普遍存在,因此数据分类是机器学习的基本任务,是图像视觉分析、文本分析、语音识别、舆情预警别等领域的基础工作。数据分类包含两种形式,即:监督学习与无监督学习。粗糙集理论是一种处理不确定性信息的数学工具,与概率论、模糊集等其他处理不确定性问题的理论和方法相比,是一种监督学习,对问题的描述和处理更倾向于符合决策属性,能更好地描述实际问题中属性值对决策属性具有某种偏好的特性,并且,现实应用中,数据缺失现象经常发生,不完备信息的决策受到了越来越广泛的重视,成为智能信息处理的重要研究内容。尽管现有技术中有很多方案分别从信息学角度提出了众多评价、预测方法,但是都存在一些问题,比如通常需要完备的数据集、评价方法中参数的率定人为因素较强、评价过程中需要大量参数、面向不同的对象评价结果适用性差等等。基于粗糙集的数据评价则只能给予某种级别的评判,在不同样本数据的定量化比较方面不如主成分分析。因此,亟需一种新的技术手段,能够克服上述技术问题,以形成相对完整、一致的评价描述,从而实现更加准确的识别和判断。
发明内容
鉴于以上所述现有技术的缺点,本发明提供一种基于邻域粗糙集和PCA融合的数据分类预测方法,以解决上述技术问题。
本发明提供的一种基于邻域粗糙集和PCA融合的数据分类预测方法,包括:
采集样本数据,形成样本数据集S;
根据样本数据集,计算邻域粗糙集权重向量和主成分权重向量;
通过对所述邻域粗糙集权重向量和主成分权重向量进行融合,获取融合后的权重向量,形成新样本数据集S’,并对原数据进行分类和预测。
进一步,通过如下公式对所述邻域粗糙集权重向量和主成分权重向量进行融合,获取融合后的权重向量:
其中,1/(k-1)为归一化因子,m(Ai)为合成权重,R(Ai)为邻域粗糙集权重向量中第i个邻域粗糙集权重,P(Ai)为主成分权重向量中第i个主成分权重。
如果K≠1,则融合后的权重构成权重分配向量,若K=1,则不存在融合后的权重向量。
融合后的权重向量D=m(A1),m(A2),…,m(Am),i=1,2……m。
进一步,根据所述融合后的权重向量,通过如下步骤构造新样本数据集S’,
进一步,所述新样本数据集S’通过如下步骤获取:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院重庆绿色智能技术研究院,未经中国科学院重庆绿色智能技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710237405.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种防止翻车的快递车
- 下一篇:平视显示器