[发明专利]一种同时实现聚类、分类和度量学习的模式识别方法无效

申请号：	201210178760.2	申请日：	2012-06-01
公开（公告）号：	CN102750545A	公开（公告）日：	2012-10-24
发明（设计）人：	蔡维玲;杨明	申请（专利权）人：	南京师范大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	南京知识律师事务所 32207	代理人：	李媛媛
地址：	210046 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种同时实现分类度量学习模式识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于模式识别领域，特别涉及同时实现聚类、分类和度量学习的模式识别方法。

背景技术

模式识别旨在对表征事物或现象的样本数据进行处理和分析，以达到两个目的：揭示和解释样本的内在结构和判断样本的类别归属。根据这两个不同的目的，传统的模式识别机器学习方法可大体分为两类：聚类学习和分类学习。

聚类学习利用样本间的相似性，把具有相同特性的样本分到同一个具有某种意义的簇中，从而对样本形成有意义的划分。该类算法可发现样本的潜在分布结构，更好地理解和分析数据，但无法决策样本的类别归属。典型的聚类算法可以分为两类：第一类根据样本的类别信息来确定每个样本点对聚类是起积极作用还是消极作用，并根据这种作用来确定最终的聚类中心；第二类设计含有类别信息的聚类目标函数，从而综合考虑聚类的紧凑性和聚类的纯度，然而，这类方法需要预先给定聚类和类别间的逻辑关系，因此在没有先验知识的情况下，只能通过猜测的方法来确定两者间的关系。这个猜测过程是一个NP完全问题，所以聚类结果的求解相当笨拙繁琐。同时，上述两类算法仅能给出聚类中心和隶属度来描述数据结构。当聚类个数等于类别个数时，可把这两个算法的聚类过程视为分类过程。但通常情况下，聚类个数往往大于类别个数，聚类结果无法直接推广为分类结果。

分类学习根据给定的样本及其类标号设计出分类判别函数，从而能对新样本的类别做出正确的预测。该类算法仅强调对样本个体的分类，但忽略了对样本空间隐藏的结构性知识的挖掘和样本间相互关系的刻画，从而导致了分类结果的可解释性和透明性变差。典型的方法包括神经网络，支持向量机等。20世纪80年代，诞生了一系列重要的神经网络模型，如Hopfield网络、多层感知器网络、径向基函数网络等。这些算法通过调整神经网络的权值来预测训练样本的类别标号，但无法解释蕴含在权值中的含义。1992年，Vapnik等人提出了基于最大间隔和核技巧的支持向量机（Support Vector Machine，SVM），其主要思想是通过极小化结构风险寻找使得正负样本间隔最大的分类超平面。但SVM没有考虑类别中包含多个子类的情况，因此SVM并不关心数据的分布。

由上述分析可知，这两类算法各有优缺点，因此设计出兼有两者优点、克服两者缺点的算法是个非常重要的研究课题。围绕此，研究人员提出了一系列算法。从设计流程上看，这些算法都是先使用聚类算法来发掘数据的结构，再利用得到的结构信息来设计分类机制。根据聚类算法实现方式的不同，可把现有算法分为两类：无监督型聚类＋分类器设计；监督型聚类＋分类器设计。其中径向基函数网络（Radial Basis Function Neural Network，RBFNN），鲁棒关系分类器（Robust Fuzzy Relational Classifier，RFRC）和增强关系分类器属于前者；而学习矢量量化（Learning Vector Quantization 3，VQ+LVQ3），监督型聚类和分类算法都属于后者。

上述算法的共同之处是，聚类学习和分类学习以顺序或串行的方式进行，也就是，先完成聚类学习，然后利用获得的聚类信息构造分类器。这种串行的设计方式使得这些算法往往只单纯地强调分类学习，而将聚类学习仅作为分类学习的辅助工具，因而，无法在一个框架下真正地融合聚类学习和分类学习各自的好处。此外，这些方法虽然部分地揭露了聚类结构和类别之间的关系，但缺乏概率意义，无法给出准确的相关信息。

发明内容

本发明的目的是弥补现有方法的缺点，提出一种同时实现聚类、分类和度量学习的模式识别方法（A Pattern Recognition Method for Simultaneous Clustering,Classification and Metric Learning，简记为SCCM），可以在同一个框架中融合聚类和分类两类方法的优势。

为实现上述目的，本发明采用的技术方案如下;

一种同时实现聚类、分类和度量学习的模式识别方法，包括如下步骤：

步骤1：对带有类标签的数据集合，建立一种可同时进行聚类学习和分类学习的模式识别机制，具体过程如下：

a)对于给定训练样本及其类标号集合{x_i，y_i}，其中x_i∈R^d且y_i∈{1,2,…,L}，建立如下目标函数：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京师范大学，未经南京师范大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201210178760.2/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种同时实现聚类、分类和度量学习的模式识别方法无效

专利文献下载