[发明专利]基于对称不确定性和信息交互增益的特征选择方法在审
申请号: | 201711086392.8 | 申请日: | 2017-11-07 |
公开(公告)号: | CN107992722A | 公开(公告)日: | 2018-05-04 |
发明(设计)人: | 林晓惠;任卫杰;苏本哲 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F19/24 | 分类号: | G06F19/24;G06F19/28 |
代理公司: | 大连理工大学专利中心21200 | 代理人: | 温福雪,侯明远 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 对称 不确定性 信息 交互 增益 特征 选择 方法 | ||
技术领域
本发明属于生物数据分析技术领域,是一种综合考虑特征与类标之间关联性以及特征与特征之间互补性的特征选择方法。
背景技术
生物大数据中存在大量未知的重要信息,如何运用数据挖掘技术从海量的生物信息数据提取有用的知识,对于了解复杂的生命活动过程,促进新药物的研发和疾病诊断方法的发现有着重大意义。
生物信息数据通常具有较高的维度,微阵列技术的进步已经产生了涉及数千特征的基因表达数据,这给传统的数据分析技术带来了挑战,特征选择算法作为一种经典的数据降维技术,能够从高维数据中挖掘出与所研究问题真正相关的特征。生物信息数据的另外一个特点是数据中的特征之间往往存在着复杂的关联关系,如冗余关系、互补关系等,特征之间的互补性尤其不容忽视。生物体本身就是一个复杂的系统,生物体内不同分子间相互关联、相互作用,共同决定生命现象的本质。这就要求特征选择算法在选择特征的时候,既要考虑特征与类标之间的关联性,又要考察特征与特征之间的互补性。对于现有的大部分特征选择算法,尽管它们采用不同的特征评价准则,且表现形式也千差万别,但它们都遵循着共同的选择框架,即候选特征与类标之间的关联性越大越好,与已选特征之间的冗余度越低越好,特征之间的互补性鲜为纳入特征评价标准之中。
本发明中提出的方法IG-RFE将特征与类标之间的关联性以及特征之间的互补性度量相结合,计算特征的区分能力,确定潜在的生物标志物。具体地,分别采用对称不确定性和信息交互增益来衡量特征与类标之间的关联性以及特征与特征之间的互补性,结合二者计算特征权重,同时采用特征后向迭代删除技术移除权重较低的特征,减少噪音对特征权重计算的干扰。
发明内容
本发明的关键在于构造恰当的特征评价函数综合评估特征与类标之间的关联性以及特征与特征之间的互补性。
本发明的技术方案:
基于对称不确定性和信息交互增益的特征选择方法,步骤如下:
(1)衡量特征与类标之间的关联性
衡量特征与类标之间关联性的度量标准有很多,如互信息。由于互信息的取值易于倾向具有多值的变量,对称不确定性(symmetric uncertainty)改善了互信息的缺点,实际上为互信息的归一化表示,特征f与类标C的对称不确定性为:
式中MI(f;C)表示的是特征f和类标C的互信息,H(x)表示变量x的信息熵。对称不确定性的值域为[0,1],取值越大代表特征与类标的关联性越大。
(2)衡量特征与特征之间的互补性
信息交互增益(interaction gain)是互信息的概念在更高维度上的进一步推广,用于刻画三个变量之间的相互依赖程度,可用于筛选具有互补性的特征。特征fi、fj以及类标C之间的信息交互增益定义如下:
IG(fi;fj;C)=MI(fi,fj;C)-MI(fi;C)-MI(fj;C) (2)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711086392.8/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置