[发明专利]基于对称不确定性和信息交互增益的特征选择方法在审
申请号: | 201711086392.8 | 申请日: | 2017-11-07 |
公开(公告)号: | CN107992722A | 公开(公告)日: | 2018-05-04 |
发明(设计)人: | 林晓惠;任卫杰;苏本哲 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F19/24 | 分类号: | G06F19/24;G06F19/28 |
代理公司: | 大连理工大学专利中心21200 | 代理人: | 温福雪,侯明远 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于对称不确定性和信息交互增益的特征选择方法,适用于生物信息数据分析,属于生物数据分析技术领域。生物体本身就是一个复杂的系统,生物体内分子之间相互关联,相互作用,共同反应生命现象的本质。为综合评价特征,除了需要考虑特征与类标的关联性之外,特征之间的互补性不容忽视。本发明采用对称不确定性和信息交互增益来衡量特征与类标之间的关联性以及特征与特征之间的互补性,结合二者计算特征的权重,同时采用特征后向迭代删除技术移除权重较低的特征,减少噪音特征对特征权重计算的干扰。本发明的核心思想是通过分析生物信息数据中特征之间潜在的关联关系,探索生物体内分子之间存在的复杂的相互作用,找到与疾病相关的生物标志物。 | ||
搜索关键词: | 基于 对称 不确定性 信息 交互 增益 特征 选择 方法 | ||
【主权项】:
一种基于对称不确定性和信息交互增益的特征选择方法,其特征在于,步骤如下:(1)衡量特征与类标之间的关联性衡量特征与类标之间关联性的度量标准有很多,如互信息;由于互信息的取值易于倾向具有多值的变量,对称不确定性改善了互信息的缺点,实际上为互信息的归一化表示,特征f与类标C的对称不确定性为:SU(f;C)=2MI(f;C)H(f)+H(C)---(1)]]>式中MI(f;C)表示的是特征f和类标C的互信息,H(x)表示变量x的信息熵;对称不确定性的值域为[0,1],取值越大代表特征与类标的关联性越大;(2)衡量特征与特征之间的互补性信息交互增益是互信息的概念在更高维度上的进一步推广,用于刻画三个变量之间的相互依赖程度,可用于筛选具有互补性的特征;特征fi、fj以及类标C之间的信息交互增益定义如下:IG(fi;fj;C)=MI(fi,fj;C)‑MI(fi;C)‑MI(fj;C) (2)与互信息不同,信息交互增益的取值可正可负也可以为零;如果IG(fi;fj;C)>0即MI(fi,fj;C)>MI(fi;C)+MI(fj;C),表明将fi和fj联合所提供的信息量多于他们单独所能够提供的信息量之和,换言之,fi和fj具有互补性;如果IG(fi;fj;C)<0即MI(fi,fj;C)<MI(fi;C)+MI(fj;C),说明将fi和fj联合所提供的信息量小于他们单独所能够提供的信息量之和,即fi和fj所提供的信息量有冗余的部分;如果IG(fi;fj;C)=0即MI(fi,fj;C)=MI(fi;C)+MI(fj;C),说明对于fi(fj)来说,fj(fi)的加入并不能使fi(fj)与C的关联性得到改善,即二者相互独立;信息交互增益是由联合互信息与互信息计算得到,因此也易倾向于选择具有多值的变量,所以需要对其进行归一化处理,特征fi,fj与类标C归一化的信息交互增益定义如下:NIG(fi;fj;C)=12+IG(fi;fj;C)2×[H(fi)+H(fj)]---(3)]]>当0≤NIG(fi;fj;C)<0.5时,特征fi与特征fj具有冗余性,当0.5<NIG(fi;fj;C)≤1时,特征fi与特征fj具有互补性;设特征集合为F,综合考虑特征与类标之间关联性以及特征与特征之间互补性的特征评价函数为:w(fi)=SU(fi;C)+1nΣfj∈F,fi≠fi|F|SU(fi;C)SU(fi;C)+SU(fj;C)×PairScore(fi,fj)---(4)]]>其中,n为F中与特征fi具有互补性的特征数;从该特征评价函数可以看出,与类标之间具有强关联性并且与当前特征子集具有互补性的特征会被赋予较高的权重,而与类标之间的关联性较弱并且与当前特征子集具有冗余性的特征会被赋予较低的权重;在对特征fi进行评价时,当前特征集合F中所有与fi具有互补性的特征均会对fi的权重计算产生影响,而生物信息数据通常维度较高,其中不乏噪音及与所研究问题无关的特征,这些特征的存在可能会使特征权重的计算产生偏差;因此在每一次迭代中,IG‑RFE计算当前特征集合F中特征的权重,删除权重最小的|F|×deleteRatio个特征,重复此过程直到F为空集,保留迭代删除过程中具有最高分类准确率的特征集合;最先被删除的特征为包含信息量最少的特征,随着迭代的进行,噪音逐渐被删除,特征权重的计算逐步更加准确;IG‑RFE算法描述如下:输入:训练数据集D,其中特征集合记作F={f1,f2,…,fm},类标集合记作C,特征迭代删除比例deleteRatio;过程:输出:所选特征集合S;IG‑RFE算法整体分为两个阶段,1‑9为第一阶段;首先初始化所选特征集合S为空集,最高分类准确率为0,然后计算每个特征和类标的对称不确定性,对称不确定性值为0的特征被认为与类标不具关联性而删除,最后计算每对特征之间的归一化信息交互增益;10‑20为第二阶段,为特征子集寻优阶段;根据公式(4)计算特征权重,依次移除一定比例的权重较低的特征,使得特征权重的计算免受噪音特征的干扰而逐步趋于准确,根据分类准确率来评价特征集合的优劣程度,最后输出搜索到的最优特征集合。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711086392.8/,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置