[发明专利]一种文本聚类元学习方法及装置有效
申请号: | 200710117752.6 | 申请日: | 2007-06-22 |
公开(公告)号: | CN101079072A | 公开(公告)日: | 2007-11-28 |
发明(设计)人: | 向继;夏鲁宁;荆继武;冯登国 | 申请(专利权)人: | 中国科学院研究生院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京德琦知识产权代理有限公司 | 代理人: | 宋志强;麻海明 |
地址: | 100039北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 聚类元 学习方法 装置 | ||
技术领域
本发明涉及文本聚类方法,尤其是指一种文本聚类元学习方法及装置。
背景技术
文本聚类方法是一种聚类分析方法,是聚类分析技术在文本处理领域的一种应用。文本聚类的方法能自动发现一个文本集中的若干簇,并将文本集中的所有文本划分成多个簇,使得属于同一个簇中的文本之间的内容具有较高的相似度,而属于不同簇的文本之间的内容差别较大。文本聚类方法可应用于很多方面,例如:美国国防部的话题检测与追踪(TDT,Topic detection and tracking)项目就力图通过文本聚类方法在一个新闻文本流中自动发现热点话题;此外,还可以使用文本聚类方法对搜索引擎返回的结果网页进行聚类,从而使用户获得更加结构化的和可理解的搜索结果;通过使用文本聚类方法,还可自动产生类似于雅虎目录(Yahoo Directory)那样的网络文本的分类体系等。
目前的文本聚类方法通常是基于向量空间模型的。在向量空间模型中,每个文本都被表示为一个多维欧几里德空间中的文本向量,空间中的每一维都和一个特征词相对应,文本向量在每一维上的取值一般定义为该维所对应的特征词在该文本向量所对应的文本中出现的次数。对于任何一个文本集,利用向量空间模型可以产生一个基于特征词的文本向量矩阵V(n*k),其中n为文本集中文本的数量,k为每个文本向量的维数,矩阵的每一行都对应一个文本向量。获得文本集的向量矩阵后,可以利用各种经典的聚类算法如K均值(K-means)算法算法、层次凝聚聚类(HAC)算法等对文本集的向量矩阵进行聚类计算,从而产生文本聚类结果。
现有的聚类算法大致可分为层次聚类、划分聚类、基于密度的聚类、基于网格的聚类和基于模型的聚类算法等几种。其中划分聚类算法,尤其是K-means算法一直是应用最为广泛的聚类算法之一。在K-means算法中通过比较数据样本与各个类中心点之间的距离划分类别,经过反复迭代将数据集划分成K个部分。其中,K为希望得到的簇的数量,需预先指定。具体来说,上述的K-means算法包括三个步骤:第一步,在数据集中确定K个初始类中心点,分别代表K个类簇;第二步,将每一个数据样本赋予与其距离最近的类中心点所代表的类簇;第三步,计算当前形成的各个类簇的中心点,代替原有类中心点,并返回第二步;如此循环执行第二、三步,直到结果收敛,也就是所有数据样本所属簇不再发生变化为止,从而达到划分聚类的目的。
除了文本聚类方法外,文本分类是另一种进行文本分析的方法。与文本聚类方法所不同的是,文本分类方法需要人工进行训练,即需要人工指定类别,并为每个类别提供一定的训练数据,然后根据被检测文本与训练数据之间的差异判断被检测文本所属的类别。常用的文本分类方法有K最近邻(KNN,K-Nearest Neighbor)算法等。
目前,一般的文本聚类和分类方法都是将文本集中的文本划分到一个特定的簇或者类别中,而软聚类和软分类方法则是对上述文本聚类和文本分类方法的一个扩展,这两种方法并不是将文本集中的文本划分到一个簇或者类别中,而是以不同的概率将文本集中的文本划分到多个簇和类别中。一般来说,通过软聚类和软分类方法所得到的分类结果更加科学。
目前文本聚类方法存在的一个主要问题在于文本聚类方法的稳定性差,即对于不同的文本集,使用一个文本聚类方法对其进行处理的结果可能时好时坏;而且有可能出现对某一个文本集,使用文本聚类方法A比使用文本聚类方法B所得到的分类结果好,而对另一个文本集,则使用文本聚类方法A比使用文本聚类方法B所得到的分类结果差的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院研究生院,未经中国科学院研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710117752.6/2.html,转载请声明来源钻瓜专利网。