[发明专利]基于信息度量的特征选择方法在审
申请号: | 201610542270.4 | 申请日: | 2016-07-11 |
公开(公告)号: | CN106169085A | 公开(公告)日: | 2016-11-30 |
发明(设计)人: | 郭继昌;顾翔元;李重仪 | 申请(专利权)人: | 天津大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 刘国威 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: |
本发明属于机器学习、数据挖掘技术领域,为提出一种基于信息度量的特征选择算法,并通过实验结果验证是否存在对一些数据集性能普遍最优的权衡系数。本发明采用的技术方案是,基于信息度量的特征选择方法,步骤如下:利用特征fi与类标签c的SU(fi;c)和两个特征fi、ft与类标签c的三路交互信息I(fi;ft;c)这两个量,构建目标函数为: |
||
搜索关键词: | 基于 信息 度量 特征 选择 方法 | ||
【主权项】:
一种基于信息度量的特征选择方法,其特征是,步骤如下:设X、Y、Z为三个离散随机变量,X、Y、Z的三路交互信息I(X;Y;Z)与X、Y、Z的条件互信息I(X;Y/Z)和X、Y的互信息I(X;Y)有如下关系:I(X;Y;Z)=I(X;Y/Z)‑I(X;Y) (7)采用匀称不确定度SU(Symmetrical Uncertainty)对互信息归一化,特征fi与类标签c的SU值如下:![]()
其中,H(fi)为特征fi的熵,H(c)为类标签c的熵,I(fi;c)为特征fi和类标签c的互信息;利用式(7),令X=fi,Y=ft,Z=c,得到式(9):I(fi;ft;c)=I(fi;ft/c)‑I(fi;ft) (9)其中,I(fi;ft;c)为两个特征fi、ft与类标签c的三路交互信息,I(fi;ft/c)为在类标签c已知条件下两个特征fi与ft的互信息,I(fi;ft)为特征fi与ft的互信息;利用特征fi与类标签c的SU(fi;c)和两个特征fi、ft与类标签c的三路交互信息I(fi;ft;c)这两个量,构建目标函数为:![]()
上式中,fi为未选取的特征,X为未选取的特征集,c为类标签,D为满足I(fi;fs;c)最大值大于零的fs特征集,fs为一个刚选出的特征,ft为D子集的特征,β是权衡系数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610542270.4/,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置