[发明专利]模式识别中的特征提取方法及装置有效
申请号: | 200710118156.X | 申请日: | 2007-06-29 |
公开(公告)号: | CN101334843A | 公开(公告)日: | 2008-12-31 |
发明(设计)人: | 西广成;孙占全 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06K9/46 | 分类号: | G06K9/46 |
代理公司: | 北京中博世达专利商标代理有限公司 | 代理人: | 申健 |
地址: | 100080北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模式识别 中的 特征 提取 方法 装置 | ||
技术领域
本发明涉及模式识别领域,特别涉及模式识别中的特征提取方法及装置。
背景技术
模式是通过对具体的个别事物进行观测所得到的具有时间和空间分布的信息;把模式所属的类别或同一类中模式的总体称为模式类(或简称为类)。而“模式识别”则是在某些一定量度或观测基础上把待识模式划分到各自的模式类中去。
模式识别的研究主要集中在两方面,即研究生物体(包括人)是如何感知对象的,以及在给定的任务下,如何用计算机实现模式识别。
一个计算机模式识别系统基本上由三个相互关联而又有明显区别的过程组成,即数据生成、模式分析和模式分类。数据生成是将输入模式的原始信息进行量化处理,转换为向量,成为计算机易于处理的形式。模式分析是对数据进行加工,包括特征选择、特征提取、数据维数压缩和决定可能存在的类别等。模式分类则是利用模式分析所获得的信息,对计算机进行训练,从而制定判别标准,以期对待识模式进行分类。
其中模式分析中的特征提取对于高效的模式分类是非常重要。模式分类涉及到各个领域,如图像分类、语音识别、生物技术、医学等。分类的效率始终是模式分类研究的重要内容,在很多实际问题中,可进行模式分类研究的特征变量非常多,如果将所有可供参考的特征变量都考虑进去进行分类,那么效率将非常低,在实际中无法使用。因此,需要对特征变量进行提取,将经特征提取得到的特征子集作为客观分类器的输入,经过对客观分类器训练,利用特征子集进行分类,从而提高分类的效率。
特征提取是基于搜索一个使信息损失量最小的特征子空间,信息量是通过特征子空间和类变量之间的互信息来度量,特征提取方法不但考虑特征变量与类变量之间的相关性,而且考虑特征变量之间的相关性。
特征提取可应用在中医学中。辨证论治是中医的核心,辨证是利用中医理论来理解和诊断疾病的一种方法,证候是未知病因的症状复合体,是机体发生异常的表征。广义的症状不但包括四诊信息,还包括性别、体质、情绪、压力、饮食、生活习惯等众多因素。在辨证过程中,因为有太多的症状体征,医生很难将所有观察到的症状都考虑进去。不同的症状体征在辨证过程中起不同的作用,如何找出包含信息量最大的症状体征集合作为某种证候的辨证标准是中医界非常重要的问题。
特征提取同样可应用于数字图像的模式识别。数字图像的模式识别是根据图像的像素灰度值进行模式分类的,一幅图像的像素量很多,如常用的1280×960像素、640×480像素、320×240像素、160×120像素等,如果在模式分类中将所有的像素作为模式分类器的输入,那样的效率将非常低。因此特征提取对于图像的模式分类也是非常重要的研究内容。在图像的特征提取中,将每个像素看作是一个特征变量,选取出对于模式分类最有用的像素作为客观分类器的输入。
关于特征变量提取的方法。相关分析是选择信息量大的特征集合的基础,特征变量可以根据它们与类变量的相关度值进行选择。
目前有多种分析相关的统计方法,最简单的方法是相关系数法,但该方法只适用于分析线性相关问题,而许多实际中的问题都是非线性关系。通常使用的非线性统计分析方法是逻辑(logistic)回归法,该方法需要特征变量之间是相互独立的,而实际的很多问题难以满足这个条件。更重要的是logistic回归方法的回归系数不能够直接反映特征变量与类变量之间的相关度值,要用胜算比(odds ratio,OR)值来确定,并且OR值没有实际的物理意义。主成分分析方法和因子分析方法也可用于相关性分析,这两种方法也只能分析变量之间的线性关系,不能度量变量之间任意的相关性。
基于熵的互信息方法则不但可以分析数值变量(离散变量和连续变量)之间的相关性,而且可以度量变量之间的任意相关性。互信息是熵理论中的核心概念之一,是非线性复杂系统自适应性的重要测度,其实质是事物之间的信息传递,随机变量之间的统计相关性,已被应用到很多领域,特别是模式识别领域。
与传统方法相比,基于熵的互信息主要有以下优点:
1)它既可以度量变量之间线性相关性又可度量变量之间的非线性相关性;
2)与logistic回归非线性分析方法相比,基于熵的互信息方法对分析的变量没有互相独立的条件限制;
3)基于熵的互信息方法不但可以分析数值变量(离散变量和连续变量)之间的相关性,而且可以度量分级变量、符号变量之间的相关性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710118156.X/2.html,转载请声明来源钻瓜专利网。