[发明专利]模式识别中的特征提取方法及装置有效
申请号: | 200710118156.X | 申请日: | 2007-06-29 |
公开(公告)号: | CN101334843A | 公开(公告)日: | 2008-12-31 |
发明(设计)人: | 西广成;孙占全 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06K9/46 | 分类号: | G06K9/46 |
代理公司: | 北京中博世达专利商标代理有限公司 | 代理人: | 申健 |
地址: | 100080北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模式识别 中的 特征 提取 方法 装置 | ||
1.一种模式识别中的特征提取方法,其特征在于,包括步骤:
根据样本的模式原始信息确定离散的特征变量与类变量,将所有特征变量组合为特征变量集,并确定每个特征变量可能的取值;确定类变量可能的取值;设定特征子集,并把该特征子集初始化为空集;
设定联合贡献度阈值;
确定特征子集与类变量的联合贡献度;
获取所述联合贡献度大于或等于所设定联合贡献度阈值的特征子集;
所述确定特征子集与类变量的联合贡献度的步骤包括:
a、确定每个特征变量与类变量之间的互信息;
b、确定使特征变量与类变量之间的互信息最大的特征变量,将该特征变量从特征变量集中去除,并加入到特征子集中;
c、确定该特征子集与类变量的联合贡献度;
其中,特征子集与类变量的联合贡献度rs的确定方法具体为:
rs=I(S;Y)/I(X;Y)
其中,I(S;Y)表示特征子集与类变量的联合互信息,
I(X;Y)表示所有特征变量与类变量的联合互信息。
2.根据权利要求1所述的模式识别中的特征提取方法,其特征在于,
所述的模式原始信息为人体症状所对应的取值,特征变量为人体的症状,类变量为病人所属的疾病类型;或者,
所述的模式原始信息为集成电路卡表面的数字图像中像素点的灰度值,特征变量为数字图像的像素点,类变量为数字值。
3.根据权利要求1所述的模式识别中的特征提取方法,其特征在于,在步骤a与步骤b之间还有步骤:从特征变量集中除去与类变量的互信息小于预定值的特征变量。
4.根据权利要求3所述的模式识别中的特征提取方法,其特征在于,所有特征变量与类变量的联合互信息是通过样本计算获得的,具体过程为:
步骤1:
用频次向量B=(B1,B2,…,BN)T表示特征变量的值都相等的样本数,N表示总的样本数;
用频次矩阵D=(Dij)表示特征变量值都相等,同时类变量的值也相等的样本数,i=1,2,…,N;j=1,2,…,k;k表示类变量可取值的个数;
用频次向量E=(E1,E2,…,Ek)T表示类变量的值相等的样本数;
步骤2:
初始化参数:令向量B的所有元素值为1,令矩阵D和向量E的所有元素值都为0;
步骤3:
获得计算概率时用到的频次:
设i=1,2,…,N,j=i+1,i+2,…,N,yi表示第i个样本的类变量取值,xi表示第i个样本特征向量的取值,cl表示类变量的第l个值;
如果Bi=0,那么执行下一个i循环;
否则
如果yi=cl,那么El=El+1,l=1,2,…,k;
如果xi=xj,那么Bi=Bi+1,Bj=0;
如果xi=xj和yi=cl,那么Dil=Dil+1,l=1,2,…,k;
步骤4:
计算所有特征变量与类变量的联合互信息:
其中,当Dij×Bi×Ej=0时,令log(Dij/BiEj)=0。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710118156.X/1.html,转载请声明来源钻瓜专利网。