[发明专利]基于对称不确定性和信息交互增益的特征选择方法在审

专利信息
申请号: 201711086392.8 申请日: 2017-11-07
公开(公告)号: CN107992722A 公开(公告)日: 2018-05-04
发明(设计)人: 林晓惠;任卫杰;苏本哲 申请(专利权)人: 大连理工大学
主分类号: G06F19/24 分类号: G06F19/24;G06F19/28
代理公司: 大连理工大学专利中心21200 代理人: 温福雪,侯明远
地址: 116024 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种基于对称不确定性和信息交互增益的特征选择方法,适用于生物信息数据分析,属于生物数据分析技术领域。生物体本身就是一个复杂的系统,生物体内分子之间相互关联,相互作用,共同反应生命现象的本质。为综合评价特征,除了需要考虑特征与类标的关联性之外,特征之间的互补性不容忽视。本发明采用对称不确定性和信息交互增益来衡量特征与类标之间的关联性以及特征与特征之间的互补性,结合二者计算特征的权重,同时采用特征后向迭代删除技术移除权重较低的特征,减少噪音特征对特征权重计算的干扰。本发明的核心思想是通过分析生物信息数据中特征之间潜在的关联关系,探索生物体内分子之间存在的复杂的相互作用,找到与疾病相关的生物标志物。
搜索关键词: 基于 对称 不确定性 信息 交互 增益 特征 选择 方法
【主权项】:
一种基于对称不确定性和信息交互增益的特征选择方法,其特征在于,步骤如下:(1)衡量特征与类标之间的关联性衡量特征与类标之间关联性的度量标准有很多,如互信息;由于互信息的取值易于倾向具有多值的变量,对称不确定性改善了互信息的缺点,实际上为互信息的归一化表示,特征f与类标C的对称不确定性为:SU(f;C)=2MI(f;C)H(f)+H(C)---(1)]]>式中MI(f;C)表示的是特征f和类标C的互信息,H(x)表示变量x的信息熵;对称不确定性的值域为[0,1],取值越大代表特征与类标的关联性越大;(2)衡量特征与特征之间的互补性信息交互增益是互信息的概念在更高维度上的进一步推广,用于刻画三个变量之间的相互依赖程度,可用于筛选具有互补性的特征;特征fi、fj以及类标C之间的信息交互增益定义如下:IG(fi;fj;C)=MI(fi,fj;C)‑MI(fi;C)‑MI(fj;C)       (2)与互信息不同,信息交互增益的取值可正可负也可以为零;如果IG(fi;fj;C)>0即MI(fi,fj;C)>MI(fi;C)+MI(fj;C),表明将fi和fj联合所提供的信息量多于他们单独所能够提供的信息量之和,换言之,fi和fj具有互补性;如果IG(fi;fj;C)<0即MI(fi,fj;C)<MI(fi;C)+MI(fj;C),说明将fi和fj联合所提供的信息量小于他们单独所能够提供的信息量之和,即fi和fj所提供的信息量有冗余的部分;如果IG(fi;fj;C)=0即MI(fi,fj;C)=MI(fi;C)+MI(fj;C),说明对于fi(fj)来说,fj(fi)的加入并不能使fi(fj)与C的关联性得到改善,即二者相互独立;信息交互增益是由联合互信息与互信息计算得到,因此也易倾向于选择具有多值的变量,所以需要对其进行归一化处理,特征fi,fj与类标C归一化的信息交互增益定义如下:NIG(fi;fj;C)=12+IG(fi;fj;C)2×[H(fi)+H(fj)]---(3)]]>当0≤NIG(fi;fj;C)<0.5时,特征fi与特征fj具有冗余性,当0.5<NIG(fi;fj;C)≤1时,特征fi与特征fj具有互补性;设特征集合为F,综合考虑特征与类标之间关联性以及特征与特征之间互补性的特征评价函数为:w(fi)=SU(fi;C)+1nΣfj∈F,fi≠fi|F|SU(fi;C)SU(fi;C)+SU(fj;C)×PairScore(fi,fj)---(4)]]>其中,n为F中与特征fi具有互补性的特征数;从该特征评价函数可以看出,与类标之间具有强关联性并且与当前特征子集具有互补性的特征会被赋予较高的权重,而与类标之间的关联性较弱并且与当前特征子集具有冗余性的特征会被赋予较低的权重;在对特征fi进行评价时,当前特征集合F中所有与fi具有互补性的特征均会对fi的权重计算产生影响,而生物信息数据通常维度较高,其中不乏噪音及与所研究问题无关的特征,这些特征的存在可能会使特征权重的计算产生偏差;因此在每一次迭代中,IG‑RFE计算当前特征集合F中特征的权重,删除权重最小的|F|×deleteRatio个特征,重复此过程直到F为空集,保留迭代删除过程中具有最高分类准确率的特征集合;最先被删除的特征为包含信息量最少的特征,随着迭代的进行,噪音逐渐被删除,特征权重的计算逐步更加准确;IG‑RFE算法描述如下:输入:训练数据集D,其中特征集合记作F={f1,f2,…,fm},类标集合记作C,特征迭代删除比例deleteRatio;过程:输出:所选特征集合S;IG‑RFE算法整体分为两个阶段,1‑9为第一阶段;首先初始化所选特征集合S为空集,最高分类准确率为0,然后计算每个特征和类标的对称不确定性,对称不确定性值为0的特征被认为与类标不具关联性而删除,最后计算每对特征之间的归一化信息交互增益;10‑20为第二阶段,为特征子集寻优阶段;根据公式(4)计算特征权重,依次移除一定比例的权重较低的特征,使得特征权重的计算免受噪音特征的干扰而逐步趋于准确,根据分类准确率来评价特征集合的优劣程度,最后输出搜索到的最优特征集合。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201711086392.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top