[发明专利]一种大数据分类方法及系统有效

申请号：	201310727192.1	申请日：	2013-12-25
公开（公告）号：	CN103729428A	公开（公告）日：	2014-04-16
发明（设计）人：	何清;吴新宇;庄福振;敖翔	申请（专利权）人：	中国科学院计算技术研究所
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京律诚同业知识产权代理有限公司 11006	代理人：	祁建国;梁挥
地址：	100190 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种数据分类方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及大数据分析领域，特别涉及一种基于超曲面的大数据分类方法及系统。

背景技术

分类是一种重要的数据分析形式，用于提取刻画重要数据类的模型。这种模型称为分类器，用于预测分类的类标号。数据分类是一个两阶段的过程，包括学习阶段和分类阶段，学习阶段即构建分类模型阶段，分类阶段即使用模型来预测给定数据的类标号。例如，我们可以建立一个分类模型，把银行贷款申请划分为安全或危险。这种分析可以帮助我们更好的全面理解数据。许多分类和预测方法来自于机器学习、模式识别和统计学。大部分算法是内存驻留的算法，通常假定数据量很小。分类有大量应用，包括欺诈检测、目标营销、性能预测、制造和医疗诊断。

现有的解决分类问题的方法有很多，单一的分类方法主要包括：决策树、贝叶斯、人工神经网络、k-近邻、支持向量机和基于关联规则的分类等；另外还有用于组合单一分类方法的集成学习算法，如装袋和提升/推进等。

（1）决策树

决策树是用于分类和预测的主要技术之一，决策树学习是以实例为基础的归纳学习算法，它着眼于从一组无次序、无规则的实例中推理出以决策树表示的分类规则。构造决策树的目的是找出属性和类别间的关系，用它来预测将来未知类别的记录的类别。它采用自顶向下的递归方式，在决策树的内部节点进行属性的比较，并根据不同属性值判断从该节点向下的分支，在决策树的叶节点得到结论。

主要的决策树算法有ID3、C4.5（C5.0）、CART、PUBLIC、SLIQ和SPRINT算法等。它们在选择测试属性采用的技术、生成的决策树的结构、剪枝的方法以及时刻，能否处理大数据集等方面都有各自的不同之处。

（2）贝叶斯

贝叶斯分类算法是一类利用概率统计知识进行分类的算法，如朴素贝叶斯算法。这些算法主要利用贝叶斯定理来预测一个未知类别的样本属于各个类别的可能性，选择其中可能性最大的一个类别作为该样本的最终类别。由于贝叶斯定理的成立本身需要一个很强的条件独立性假设前提，而此假设在实际情况中经常是不成立的，因而其分类准确性就会下降。为此就出现了许多降低独立性假设的贝叶斯分类算法，如TAN算法，它是在贝叶斯网络结构的基础上增加属性对之间的关联来实现的。

（3）人工神经网络

人工神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。在这种模型中，大量的节点（或称“神经元”，或“单元”）之间相互联接构成网络，即“神经网络”，以达到处理信息的目的。神经网络通常需要进行训练，训练的过程就是网络进行学习的过程。训练改变了网络节点的连接权的值使其具有分类的功能，经过训练的网络就可用于对象的识别。

目前，神经网络已有上百种不同的模型，常见的有反向传播网络、径向基函数网络、霍普菲尔德网络、随机神经网络、竞争神经网络等。但是当前的神经网络仍普遍存在收敛速度慢、计算量大、训练时间长和不可解释等缺点。

（4）k-近邻

k-近邻算法是一种基于实例的分类方法。该方法就是找出与未知样本x距离最近的k个训练样本，看这k个样本中多数属于哪一类，就把x归为那一类。k-近邻方法是一种懒惰学习方法，它存放样本，直到需要分类时才进行分类，如果样本集比较复杂，可能会导致很大的计算开销，因此无法应用到实时性很强的场合。

（5）支持向量机

支持向量机是万普尼克根据统计学习理论提出的一种新的学习方法，它的最大特点是根据结构风险最小化准则，以最大化分类间隔构造最优分类超平面来提高学习机的泛化能力，较好地解决了非线性、高维数、局部极小点等问题。对于分类问题，支持向量机算法根据区域中的样本计算该区域的决策曲面，由此确定该区域中未知样本的类别。

（6）基于关联规则的分类

关联规则挖掘是数据挖掘中一个重要的研究领域。近年来，对于如何将关联规则挖掘用于分类问题，学者们进行了广泛的研究。关联分类方法挖掘形如condset→C的规则，其中condset是项(或属性-值对)的集合，而C是类标号，这种形式的规则称为类关联规则。关联分类方法一般由两步组成：第一步用关联规则挖掘算法从训练数据集中挖掘出所有满足指定支持度和置信度的类关联规则；第二步使用启发式方法从挖掘出的类关联规则中挑选出一组高质量的规则用于分类。

（7）集成学习

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所，未经中国科学院计算技术研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201310727192.1/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种大数据分类方法及系统有效

专利文献下载