[发明专利]半监督分类方法及系统有效

申请号：	201310202411.4	申请日：	2013-05-27
公开（公告）号：	CN103268346A	公开（公告）日：	2013-08-28
发明（设计）人：	张长水;宋扬磊;杨逸飞;窦维蓓;翁时锋	申请（专利权）人：	翁时锋;张长水;窦维蓓
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	上海唯源专利代理有限公司 31229	代理人：	曾耀先
地址：	315194 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	监督分类方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本申请涉及计算机技术领域，特别涉及一种半监督分类方法及系统。

背景技术

当今互联网上每天都会产生大量的信息，且每天都在以惊人的速度膨胀。诸如新闻评论、BBS、博客、聊天室、聚合新闻（RSS）等应用每时每刻都会产生大量的数据，这些数据中包含人们对社会各种现象的各种观点和立场，话题涉及政治、经济、军事、娱乐、生活等各个领域，因此互联网信息分类技术在话题跟踪与发现、流行语分析、舆情预警等领域都有广泛的应用背景。

鉴于此，在当前互联网已经成为重要网络媒体、网上海量资源迅速膨胀的形势下，基于自然语言理解领域，通过分类算法实现互联网数据的分类，对于互联网信息监管、舆论引导工作拥有广泛而深远的意义。但是人工对其加以分析和处理的速度已经远远不能满足要求，因而人们已经开始着手研究用统计和学习的方法来对大量的信息进行自动处理和分类。

在传统的机器学习中，通过各种各样的手段获取包括文本、语音、视频和图片在内的各种数据，假设所有的样本独立并服从一个确定的概率分布，并基于这样的假设，训练一个分类器，根据已知样本预测未出现在训练集中的样本，从而通过这种方法来实现数据的自动分类。

传统的机器学习一般分为监督学习（supervised learning）和无监督学习（unsupervised learning）。监督学习是指，对于一批样本，不仅知道其中每一个样本数据本身，还知道其对应的类别标签。通过设计一个分类器，对这批样本进行分类，进而能根据该划分预测新样本的类别标签。如图1所示，“○”和“×”都是样本数据，且每个样本都已知类别属性，而图中的直线则是最优的分类器，通过该分类器对新数据进行分类。而无监督学习是指，训练集中的样本数据都没有类别标签，通过分类算法把数据分成若干类，也称之为聚类，如图2所示。

然而在很多应用的所要分析的海量数据中，只有一部分有类别标签，另外一部分却没有类别标签，这自然使得半监督学习近年来成为研究的热点。具体地，训练集中既有有标注的样本也有未标注的样本，如图3所示，标记为“O”和“X”的是已知类别的样本，而用“△”标注的都是未知类别样本，半监督学习即是指利用已标注类别标签和未标注类别标签的数据来设计分类器，半监督学习对于减少标注代价，提高学习机器性能具有非常重大的实际意义。

但是，半监督学习分类算法从提出到现在时间比较短，主要用于处理人工合成数据，还没办法在某个现实领域得到应用，也就是说，其现实意义没体现出来。因此，半监督学习的实际应用价值问题值得更多的研究。

此外，在许多应用中，数据独立同分布的假设并不成立。以文本信息为例，在主题论坛中，网友发帖的讨论热点会随着时事热点的演变而变化。比如，我们搜集某军事论坛在一段时间内的所有文章作为语料库，那么我们可以发现，虽然该论坛的文章总体上都属于军事相关的文章，但其讨论热点可能在九月初集中于“航母”而在十一月份转移到了“歼-30”上。如果我们分批次采集数据，那么不同时间采集到的数据分布就会有所不同。由于现有的分类算法大多不会将数据的演化性考虑在内，因而也增加了这部分数据分类错误的几率。

由此，目前需要一种分类方法，可以将数据演化前后的联系考虑在内的同时，也可以将半监督学习方法得到实际应用，以达到更好的分类效果以及更高的分类准确性。

发明内容

本发明的目的是提供一种半监督分类方法及系统，以解决现有的互联网数据分类方法没有将演化性考虑在内，错误几率较高的问题。

本发明提出一种半监督分类方法，包括以下步骤：

构建词典，所述词典中包括所有文本数据中出现的词；

采集当前时刻文本数据，所述当前时刻的一部分文本数据未标注类别标签；

计算当前时刻每一个文本数据相对于所述词典的特征向量；

根据计算出的当前时刻文本数据相对于所述词典的特征向量，计算当前时刻各个文本数据之间的相似性；

获取预存的前一时刻文本数据及前一时刻数据相对于所述词典的特征向量；

根据当前时刻和前一时刻文本数据相对于所述词典的特征向量，计算前一时刻的各个文本数据与当前时刻各个文本数据之间的相似性；

根据当前时刻文本数据之间的相似性以及前一时刻与当前时刻的文本数据之间的相似性，获取当前时刻未标注类别标签的文本数据的类别标签。

依照本发明较佳实施例所述的半监督分类方法，构建词典时，去掉所述词典中的定冠词。