[发明专利]数据分类方法及数据分类装置无效
申请号: | 200880109491.6 | 申请日: | 2008-04-21 |
公开(公告)号: | CN101809574A | 公开(公告)日: | 2010-08-18 |
发明(设计)人: | 藤卷辽平 | 申请(专利权)人: | 日本电气株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06N3/00 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 谢丽娜;关兆辉 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 分类 方法 装置 | ||
技术领域
本发明涉及数据分类方法及数据分类装置,特别涉及一种通过利用多个分离面能够将已知类别及偏离值同时进行分类的数据分类方法及数据分类装置。该申请基于2007年9月28日申请的日本专利申请2007-253703号。该日本专利申请公开的内容通过参照援引在本申请中。
背景技术
数据分类是在被给出未分类数据的情况下对该数据隶属的类别进行推测的技术,是数据分析最基本的要素之一。特别是利用了类别之间的分离面等、将特征空间分为多个区域的分离面的数据分类技术的模型表现力高。因此,不仅能够应用于以画像数据、蛋白质或遗传因子数据为代表的数据分类,也能够应用于将类别标签作为故障信息的情况下的故障诊断、将因特网或社会网络等网络间的链接的有无作为类别标签的情况下的链接的预测等广泛的问题及数据结构。
利用分离面的数据分类方法较大地分为识别和偏离值分类的2个技术。前者是学习从附带有类别标签的数据将类别分离的分离面,将分类对象数据向已知类别进行分类的技术。后者是将学习数据视为1个类别,学习将学习数据所分布的区域和除此之外的区域分离的分离面,由此,对分类对象数据隶属于该类别还是偏离该类别进行分类的技术。此外,作为同时实施识别和偏离值分类的数据分类方法,作为利用分离面的数据分类方法的组合的方法,能够容易地类推出来的方法有几种。
首先,在与学习数据有关的类别的数量为1的情况下,数据分类为偏离值分类,因此可以想到利用1类别支持向量机(文献5的第8章、文献3)等公知的偏离值分类技术。
接着,在与学习数据有关的类别的数量为2以上的情况下,可以想到,分别针对各类别学习1类别支持向量机等的偏离值分类方法,在将分类对象数据判定为是相对于全部类别的偏离值的情况下,将该分类对象数据作为偏离值,在将1个或多个类别判定为隶属于该类别的情况下,在这些类别的1个或多个中进行分类的方法。
作为与学习数据有关的类别的数量为2个以上的情况下的其他方法,可以想到有如下方法:将1类别支持向量机等的偏离值分类方法和利用支持向量机(文献1、文献2、文献6)等的分离面的识别方法组合,首先根据偏离值分类方法统一学习全部类别,接着学习与已知类别有关的识别方法。在该方法中,首先根据偏离值检测方法判定分类对象数据是否是偏离值,在不是偏离值的情况下,根据识别方法对是隶属于已知的哪个类别进行分类。
另一方面,作为利用多个分离面的技术有多类别支持向量机。多类别支持向量机的实现方法有几种,有按照类别的每个组合分别计算2类别的支持向量机而采取按数量多决定的方法和如文献7和文献4中提出的方法那样使多个超空间同时最优化的方法。
以下,列举文献一览。
文献1:日本特开2007-115245号公报
文献2:日本特开2007-95069号公报
文献3:日本特开2005-345154号公报
文献4:日本特开2007-52507号公报
文献5:Bernhard Scholkopf and Alex Smola.Learning with Kernels、Support Vector Machines、Regularization、Optimization and Beyond.MITPress.2002.
文献6:Bernhard Scholkopf、Alex J.Smola、Robert C.Williamson andPeter L.Bartlett.New Support Vector Algorithms.Neural Computation.Vol.12:page 1207-1245.2000.
文献7:Ioannis Tsochantaridis、Thorsten Joachims、ThomasHofmann、Yasemin Altun.Large Margin Methods for Structured andInterdependent Output Variables.Journal of Machine Learning ResearchVol.6:page 1453-1484.2005.
文献8:A.L.Yuille and A.Rangarajan.The concave-convexprocedure.Neural Computation.Vol.15:page 915-936.2003.
在以往的同时实施识别及偏离值分类的数据分类方法中存在以下的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于日本电气株式会社,未经日本电气株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200880109491.6/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置