[发明专利]基于对称不确定性和信息交互增益的特征选择方法在审

专利信息
申请号: 201711086392.8 申请日: 2017-11-07
公开(公告)号: CN107992722A 公开(公告)日: 2018-05-04
发明(设计)人: 林晓惠;任卫杰;苏本哲 申请(专利权)人: 大连理工大学
主分类号: G06F19/24 分类号: G06F19/24;G06F19/28
代理公司: 大连理工大学专利中心21200 代理人: 温福雪,侯明远
地址: 116024 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 对称 不确定性 信息 交互 增益 特征 选择 方法
【说明书】:

技术领域

发明属于生物数据分析技术领域,是一种综合考虑特征与类标之间关联性以及特征与特征之间互补性的特征选择方法。

背景技术

生物大数据中存在大量未知的重要信息,如何运用数据挖掘技术从海量的生物信息数据提取有用的知识,对于了解复杂的生命活动过程,促进新药物的研发和疾病诊断方法的发现有着重大意义。

生物信息数据通常具有较高的维度,微阵列技术的进步已经产生了涉及数千特征的基因表达数据,这给传统的数据分析技术带来了挑战,特征选择算法作为一种经典的数据降维技术,能够从高维数据中挖掘出与所研究问题真正相关的特征。生物信息数据的另外一个特点是数据中的特征之间往往存在着复杂的关联关系,如冗余关系、互补关系等,特征之间的互补性尤其不容忽视。生物体本身就是一个复杂的系统,生物体内不同分子间相互关联、相互作用,共同决定生命现象的本质。这就要求特征选择算法在选择特征的时候,既要考虑特征与类标之间的关联性,又要考察特征与特征之间的互补性。对于现有的大部分特征选择算法,尽管它们采用不同的特征评价准则,且表现形式也千差万别,但它们都遵循着共同的选择框架,即候选特征与类标之间的关联性越大越好,与已选特征之间的冗余度越低越好,特征之间的互补性鲜为纳入特征评价标准之中。

本发明中提出的方法IG-RFE将特征与类标之间的关联性以及特征之间的互补性度量相结合,计算特征的区分能力,确定潜在的生物标志物。具体地,分别采用对称不确定性和信息交互增益来衡量特征与类标之间的关联性以及特征与特征之间的互补性,结合二者计算特征权重,同时采用特征后向迭代删除技术移除权重较低的特征,减少噪音对特征权重计算的干扰。

发明内容

本发明的关键在于构造恰当的特征评价函数综合评估特征与类标之间的关联性以及特征与特征之间的互补性。

本发明的技术方案:

基于对称不确定性和信息交互增益的特征选择方法,步骤如下:

(1)衡量特征与类标之间的关联性

衡量特征与类标之间关联性的度量标准有很多,如互信息。由于互信息的取值易于倾向具有多值的变量,对称不确定性(symmetric uncertainty)改善了互信息的缺点,实际上为互信息的归一化表示,特征f与类标C的对称不确定性为:

式中MI(f;C)表示的是特征f和类标C的互信息,H(x)表示变量x的信息熵。对称不确定性的值域为[0,1],取值越大代表特征与类标的关联性越大。

(2)衡量特征与特征之间的互补性

信息交互增益(interaction gain)是互信息的概念在更高维度上的进一步推广,用于刻画三个变量之间的相互依赖程度,可用于筛选具有互补性的特征。特征fi、fj以及类标C之间的信息交互增益定义如下:

IG(fi;fj;C)=MI(fi,fj;C)-MI(fi;C)-MI(fj;C) (2)

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711086392.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top