[发明专利]一种文本聚类方法及装置有效

申请号：	201611035287.7	申请日：	2016-11-21
公开（公告）号：	CN106599072B	公开（公告）日：	2020-07-10
发明（设计）人：	王伟	申请（专利权）人：	东软集团股份有限公司
主分类号：	G06F16/35	分类号：	G06F16/35
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	刘晓菲;王宝筠
地址：	110179 辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开了一种文本聚类方法和装置，实现了提高文本聚类效率和质量的目的。其中，所述方法包括：获取待聚类文本，所述待聚类文本中包括各个特征词；对所述待聚类文本的各个特征词进行聚类，得到每一个词聚类类别分别对应的特征词集；构建与每个待聚类文本对应的文本向量，所述文本向量中的每一维表示一个词聚类类别的特征词集相对于一个待聚类文本的重要程度；利用所述每个待聚类文本对应的文本向量对所述待聚类文本进行聚类。

技术领域

本发明涉及自然语言文本智能分析领域，尤其涉及一种文本聚类方法及装置。

背景技术

文本聚类是聚类分析技术在文本处理领域的一种应用。文本聚类的方法能自动发现一个文本集中的若干簇，并将文本集中的所有文本划分成多个簇，使得属于同一个簇中的文本之间的内容具有较高的相似度，而属于不同簇的文本之间的内容差别较大。文本聚类方法可应用于很多方面，例如：美国国防部的话题检测与追踪(TDT，Topic detectionand tracking)项目就力图通过文本聚类方法在一个新闻文本流中自动发现热点话题；此外，还可以使用文本聚类方法对搜索引擎返回的结果网页进行聚类，从而使用户获得更加结构化的和可理解的搜索结果；通过使用文本聚类方法，还可自动产生类似于雅虎目录(Yahoo Directory)那样的网络文本的分类体系等。

目前的文本聚类方法通常是基于向量空间模型(Vector Space Model，VSM)的。在向量空间模型中，每个文本都被表示为一个多维欧几里德空间中的文本向量，空间中的每一维都和一个特征词相对应，文本向量在每一维上的取值一般定义为该维所对应的特征词在该文本向量所对应的文本中出现的次数。对于任何一个文本集，利用向量空间模型可以产生一个基于特征词的文本向量矩阵V(n*k)，其中n为文本集中文本的数量，k为每个文本向量的维数，矩阵的每一行都对应一个文本向量。获得文本集的向量矩阵后，可以利用各种经典的聚类算法如K均值(K-means)算法、层次凝聚聚类(HAC)算法等对文本集的向量矩阵进行聚类计算，从而产生文本聚类结果。

由于向量空间模型的每一个特征词就是一维，当特征词的数量较多时，维数也同样很多，因此在获得文本向量矩阵进行后续的聚类计算时，计算量会非常庞大，计算效率较低。

此外，因为现有技术中文本向量的维数较多，使得文本向量对文本的表示极为稀疏，即文本向量中各维语义表达极为分散，因而造成在以语义为依据的文本聚类过程中，效果较差。

发明内容

为了解决现有技术存在的技术问题，本发明提供了一种文本聚类方法及装置，实现了提高文本聚类效率和质量的目的。

本发明实施例提供了一种文本聚类方法，所述方法包括：

获取待聚类文本，所述待聚类文本中包括各个特征词；

对所述待聚类文本的各个特征词进行聚类，得到每一个词聚类类别分别对应的特征词集；

构建与每个待聚类文本对应的文本向量，所述文本向量中的每一维表示一个词聚类类别的特征词集相对于一个待聚类文本的重要程度；

利用所述每个待聚类文本对应的文本向量对所述待聚类文本进行聚类。

可选的，所述构建与每个待聚类文本对应的文本向量包括：

计算所述待聚类文本中每个特征词的词权重，所述词权重表示所述特征词相对于所在的待聚类文本的重要程度；

利用所述词聚类类别中每个特征词的词权重，分别得到每个待聚类文本中每个词聚类类别的类权重，所述类权重表示一个词聚类类别的特征词集相对于一个待聚类文本的重要程度；