[发明专利]一种高维不完整数据特征选择方法有效
申请号: | 201710388939.3 | 申请日: | 2017-05-27 |
公开(公告)号: | CN107220346B | 公开(公告)日: | 2021-04-30 |
发明(设计)人: | 李玉诺;尹春福;王妍;杨钧;李俊;吴阳;付永全 | 申请(专利权)人: | 荣科科技股份有限公司;辽宁大学 |
主分类号: | G06F16/28 | 分类号: | G06F16/28 |
代理公司: | 沈阳杰克知识产权代理有限公司 21207 | 代理人: | 罗莹 |
地址: | 110027 辽宁省沈*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 高维不 完整 数据 特征 选择 方法 | ||
1.一种高维不完整数据特征选择方法,包括如下步骤:
(1)判断初始数据是否为完整数据;若为不完整数据,则转到步骤(2);若为完整数据,则转到步骤(3);
(2)采用不完整矩阵计算方法处理数据,具体为:
(2.1)假设现在有各个维度的数据,用1表示该维度的值是完整的,用0表示该维度的值是缺失的,计算每个维度的缺失率,接着通过下式计算缺失熵:
其中pi是每个维度的缺失率,H(X)表示缺失熵,n表示数据的维度;
(2.2)H(X)越大说明不确定性越高,缺失率越接近0.5,H(x)的极值为0.5;依次算出每个维度的缺失熵;
(2.3)对结果进行加权平均;
(2.4)对每一个维度X的缺失值,P(忽略)=Hmean(X),P(填补)=1-Hmean(X);
其中Hmean(X)表示缺失熵H(X)加权平均的结果,P(忽略)是将该数据删除的概率,P(填补)是将数据填充的概率;
(3)在高维数据中进行特征选择时,通过比较原始数据矩阵的相关矩阵和随机矩阵在奇异值上的差异,对相关矩阵进行去噪,其实现步骤如下:
(3.1)设有原始N×L数据矩阵D,其中特征集合F={f1,f2,…,ft},类集合C={c1,c2,…,ck},通过(1a-1b)式构建互信息矩阵M,当k较小时,无法很好的满足随机矩阵的特征,因此需要对M进行增广,复制m次,即M=[M,m(M)],为了保持初始的行列比,这里m=((L-1)2/N*k)-1;
其中P(x,y)是特征和类别的联合分布,P(x)和P(y)分别是特征和类别的出现概率;I(X;Y)表示互信息,其中X代表集合F,Y代表集合C;t,k分别代表特征集合F与C中元素的个数;
(3.2)为了保证一般性,对矩阵M进行规范化,通过(2)式中心化,然后再通过(3)式进行标准化,得到矩阵Md;接着根据(4)式计算得到t×t的特征相关矩阵C;
Iij是矩阵M中第i行第j列的元素,maxIi是第i行中最大的元素,minIi是第i行中最小的元素;
是(2)式中的求得的元素,表示求第i行中所有元素平方和的算术平方根
(3.3)对C按(5)式进行奇异值分解;其中Λ=diag(σ1,σ2,…,σr)且σ1≥σ2≥…σt0,σi(i=1,2,…,r)为矩阵C的奇异值,这时称式(5)为矩阵C的奇异值分解式;
C=UΛV (5)
(3.4)建立t×m随机矩阵,其变量服从均值为0,方差为1的正态分布,根据下式可以得到相关矩阵的最大特征值;
其中Q是矩阵的行列比,即Q=t/m;
Cnew=UΛnewV (6)
(3.5)根据随机矩阵理论,认为的奇异值是噪声,则令所有i≥j的σi=0,t-j剩下的j-1个奇异值包含了所有的真实信息,因此可以矩阵相乘得到新的相关矩阵Cnew:
(3.6)对Cnew进行奇异值分解得到Unew和Vnew,Cnew中的每个元素Kij表示任意2个特征对初始类的相关程度,Vnew中的每个元素Eij是每个特征对新类的相关程度;
(3.7)对通过去噪后的相关矩阵进行特征选择,特征选择的目标是去除与类不相关的特征和相互冗余的特征.经过去噪的结果可知,共保留了j-1个奇异值,因此在这里共选择j-1个特征,因此可以根据(7)式计算每一个特征的重要度,其中F(i)表示第i个特征的重要度,得到集合F={f1,f1,…,fi},接着对F进行降序排序,选择前j-1个重要度最大的特征,从而完成特征选择;
其中Iij是矩阵M的第i行第j列的元素,Eij是(6)式中Cnew奇异值分解后得到的右奇异矩阵Vnew的第i行第j列的元素,Kij是相关矩阵Cnew的第i行第j列的元素。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于荣科科技股份有限公司;辽宁大学,未经荣科科技股份有限公司;辽宁大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710388939.3/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置