[发明专利]一种高维不完整数据特征选择方法有效

专利信息
申请号: 201710388939.3 申请日: 2017-05-27
公开(公告)号: CN107220346B 公开(公告)日: 2021-04-30
发明(设计)人: 李玉诺;尹春福;王妍;杨钧;李俊;吴阳;付永全 申请(专利权)人: 荣科科技股份有限公司;辽宁大学
主分类号: G06F16/28 分类号: G06F16/28
代理公司: 沈阳杰克知识产权代理有限公司 21207 代理人: 罗莹
地址: 110027 辽宁省沈*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 高维不 完整 数据 特征 选择 方法
【权利要求书】:

1.一种高维不完整数据特征选择方法,包括如下步骤:

(1)判断初始数据是否为完整数据;若为不完整数据,则转到步骤(2);若为完整数据,则转到步骤(3);

(2)采用不完整矩阵计算方法处理数据,具体为:

(2.1)假设现在有各个维度的数据,用1表示该维度的值是完整的,用0表示该维度的值是缺失的,计算每个维度的缺失率,接着通过下式计算缺失熵:

其中pi是每个维度的缺失率,H(X)表示缺失熵,n表示数据的维度;

(2.2)H(X)越大说明不确定性越高,缺失率越接近0.5,H(x)的极值为0.5;依次算出每个维度的缺失熵;

(2.3)对结果进行加权平均;

(2.4)对每一个维度X的缺失值,P(忽略)=Hmean(X),P(填补)=1-Hmean(X);

其中Hmean(X)表示缺失熵H(X)加权平均的结果,P(忽略)是将该数据删除的概率,P(填补)是将数据填充的概率;

(3)在高维数据中进行特征选择时,通过比较原始数据矩阵的相关矩阵和随机矩阵在奇异值上的差异,对相关矩阵进行去噪,其实现步骤如下:

(3.1)设有原始N×L数据矩阵D,其中特征集合F={f1,f2,…,ft},类集合C={c1,c2,…,ck},通过(1a-1b)式构建互信息矩阵M,当k较小时,无法很好的满足随机矩阵的特征,因此需要对M进行增广,复制m次,即M=[M,m(M)],为了保持初始的行列比,这里m=((L-1)2/N*k)-1;

其中P(x,y)是特征和类别的联合分布,P(x)和P(y)分别是特征和类别的出现概率;I(X;Y)表示互信息,其中X代表集合F,Y代表集合C;t,k分别代表特征集合F与C中元素的个数;

(3.2)为了保证一般性,对矩阵M进行规范化,通过(2)式中心化,然后再通过(3)式进行标准化,得到矩阵Md;接着根据(4)式计算得到t×t的特征相关矩阵C;

Iij是矩阵M中第i行第j列的元素,maxIi是第i行中最大的元素,minIi是第i行中最小的元素;

是(2)式中的求得的元素,表示求第i行中所有元素平方和的算术平方根

(3.3)对C按(5)式进行奇异值分解;其中Λ=diag(σ12,…,σr)且σ1≥σ2≥…σt0i(i=1,2,…,r)为矩阵C的奇异值,这时称式(5)为矩阵C的奇异值分解式;

C=UΛV (5)

(3.4)建立t×m随机矩阵,其变量服从均值为0,方差为1的正态分布,根据下式可以得到相关矩阵的最大特征值;

其中Q是矩阵的行列比,即Q=t/m;

Cnew=UΛnewV (6)

(3.5)根据随机矩阵理论,认为的奇异值是噪声,则令所有i≥j的σi=0,t-j剩下的j-1个奇异值包含了所有的真实信息,因此可以矩阵相乘得到新的相关矩阵Cnew

(3.6)对Cnew进行奇异值分解得到Unew和Vnew,Cnew中的每个元素Kij表示任意2个特征对初始类的相关程度,Vnew中的每个元素Eij是每个特征对新类的相关程度;

(3.7)对通过去噪后的相关矩阵进行特征选择,特征选择的目标是去除与类不相关的特征和相互冗余的特征.经过去噪的结果可知,共保留了j-1个奇异值,因此在这里共选择j-1个特征,因此可以根据(7)式计算每一个特征的重要度,其中F(i)表示第i个特征的重要度,得到集合F={f1,f1,…,fi},接着对F进行降序排序,选择前j-1个重要度最大的特征,从而完成特征选择;

其中Iij是矩阵M的第i行第j列的元素,Eij是(6)式中Cnew奇异值分解后得到的右奇异矩阵Vnew的第i行第j列的元素,Kij是相关矩阵Cnew的第i行第j列的元素。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于荣科科技股份有限公司;辽宁大学,未经荣科科技股份有限公司;辽宁大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710388939.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top