[发明专利]特征选择无效
申请号: | 200680036679.3 | 申请日: | 2006-08-24 |
公开(公告)号: | CN101278304A | 公开(公告)日: | 2008-10-01 |
发明(设计)人: | 杨广中;胡晓鹏 | 申请(专利权)人: | 皇家创新有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 杨生平;高少蔚 |
地址: | 英国*** | 国省代码: | 英国;GB |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征 选择 | ||
技术领域
本发明涉及作为分类器的输入的特征的选择。具体地,而不是唯一地,这些特征表示例如家庭护理环境中的传感器网络中的传感器的输出。
背景技术
在监督式机器学习(supervised machine learning)领域中用于维数降低的技术已经受到了广泛的关注。总体来说,存在两组方法:特征提取和特征选择。在特征提取中,给定的特征被变换到较低维数的空间中,同时使信息的损失最小。一种特征提取技术是主成分分析(PCA),该技术将多个相关的变量变换为多个不相关的变量(或者主成分)。另一方面,对于特征选择,不创建新的特征。通过消除不相关和冗余的特征来降低维数。不相关(或者冗余)的特征基本不提供关于目标概念的信息(或者不提供新的信息)。
特征选择的目的是通过消除不相关和冗余的特征来降低归纳系统的复杂性。在机器学习领域中,为了减少计算成本和存储量以及提高预测的准确性,这种技术正变得越来越重要。理论上,高维数模型比低维数模型更准确。然而,推理系统的计算成本随着其维数的增加而急剧提高,因此,需要根据总体计算成本来权衡准确性。另一方面,如果根据不充分的训练数据建立高维数模型,则该模型的准确性可能劣化。在这种情况下,该模型不能对信息结构提供令人满意的描述。理解未知系统的固有结构所需的训练数据的量随着其维数的增大呈指数式地增大。当学习算法由于不相关的特征所导致的伪结构而变得混乱时,不准确的描述可能导致严重的过拟合(over-fitting)问题。为了获得在计算上容易处理的系统,需要消除对总体性能几乎没有贡献的含信息较少的特征。此外,收集大量的样本数据的高成本使得期望获得高效率的选择策略来去除不相关和冗余的特征。
在机器学习中,经常可以将特征选择方法划分为两组:包装器(wrapper)方式和过滤器(filter)方式,其通过特征选择和归纳算法之间的关系来区分。包装器方式使用归纳算法的估算准确性来评价候选特征子集。而过滤器直接根据数据学习,并且独立于任何具体的归纳算法来运算。这种方法根据候选子集的信息内容就分类为目标概念来评价候选子集的“适合度(goodness)”。未针对归纳算法和嵌入训练数据集的信息结构之间的特定相互来调节过滤器。在给定足够特征的情况下,基于过滤器的方法尝试以保持尽可能多的关于数据的基本结构的信息的方式来消除特征。
上述问题变得明显的一个示例性应用领域是在家庭护理环境中监护患者。通常,这种监护涉及分析从大量传感器收集的数据,包括患者佩带的活动传感器(例如加速度传感器)、监视患者的生理状态(例如体温、血糖水平、心率和呼吸频率)的传感器、以及分布在家中的传感器,例如可以是动作检测器、或者是可以检测灯的打开和关闭或者门的打开和关闭的电开关。可能需要针对每一个患者分别设置家庭护理监护系统。如果要在短时间内配置家庭护理监护系统,则收集大量训练数据用于训练接收监护系统的输出的分类器无论如何是不可能的。因此,在家庭护理监护的情况下尤其希望高效的为分类器选择输入特征的算法。
发明内容
在本发明的第一方面,提供了根据权利要求1所述的自动选择特征作为分类器的输入的方法。优选地,通过使用分类器的接收器操作特性曲线下的面积,在选择中使用直接表示分类性能的度量。
优选地,估算是基于分类器的所有类的期望曲线下面积。特征选择可以从所有可获得的特征的满集开始,并且通过从该集合中重复去除特征来减小特征的数量。可选地,算法可以从空的特征集开始,并且重复增加特征。去除(增加)的特征是使估算的变化最小(最大)的特征。
优选地,针对每一个特征,可以通过考虑该特征以及其余特征中的一部分而不是全部,但只挑选其中的选择来估算变化。这降低了算法的计算要求。然后,可以根据所选定的其余特征和所述特征的期望曲线下面积与没有所述特征的而只有所挑选的其余特征的期望曲线下面积的差来计算变化。
所述方法可以包括:计算所述子集中所述特征和其余每一个特征的微分度量;并选定预定数量的具有最小微分度量的其它特征进行所述选择。所述微分度量可以是所述特征的期望曲线下面积与所述和一个其余特征的期望曲线下面积的差。优选地,可以在进行任何特征选择之前,对集合中的所有特征预先计算所述微分度量。这进一步提高了计算效率,因为仅在算法开始时需要重新计算一次所述微分度量。可以省略(或者增加)特征,直到分类所使用的子集中的特征的数量等于预定阈值为止,或者可选地,直到达到期望曲线下面积的阈值为止。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于皇家创新有限公司,未经皇家创新有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200680036679.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种双活性复合催化剂及其制备方法和应用
- 下一篇:一种节能酒瓶