[发明专利]一种快速的短文本双聚类方法有效

申请号：	201310133656.6	申请日：	2013-04-17
公开（公告）号：	CN103177125A	公开（公告）日：	2013-06-26
发明（设计）人：	符建辉;刘亮亮;王石;王卫民	申请（专利权）人：	镇江诺尼基智能技术有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	南京知识律师事务所 32207	代理人：	汪旭东
地址：	212009 江苏省镇江市***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种快速文本双聚类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种快速的短文本双聚类方法，其特征在于：包括以下步骤：

步骤1）短文本干扰项的预处理，在无关语词典和词类词典的支持下，对短文本进行快速进行的无关语和词类识别和处理识别；

步骤2）计算预处理后的两个短文本相似度，形成在短文本相似度稀疏矩阵；

步骤3）在短文本相似度稀疏矩阵上进行短文本一级聚类，根据短文本相似度的结算结果，将相似的短文本划分成一个一个的簇；

步骤4）在一级聚类结果基础上进行短文本二级聚类。

2.根据权利要求1所述的一种快速的短文本双聚类方法，其特征在于：所述的步骤1包括意码构造方法：对任意一个词类WC，利用随机函数产生随机数，产生nSC个大于0小于10000的随机正整数，设为C₁、…、C_nSC，取出《汉语字典》中的第C₁个、…、第C_nSC个汉字，分别为H₁、…、H_nSC，则词类WC的意码为汉字串H₁…H_nSC。

3.根据权利要求1所述的一种快速的短文本双聚类方法，其特征在于：所述的步骤2包括计算短文本相似度的方法：对两个短文本S_i和S_j，它们的相似度计算方法为：

。

4.根据权利要求1所述的一种快速的短文本双聚类方法，其特征在于：所述的步骤3包括以下步骤：

步骤31）在计算短文本相似度过程中，将短文本相似度小于某个阈值（a）的点排除掉，构造短文本相似度稀疏矩阵；

步骤32）在短文本相似度稀疏矩阵中，寻找相似度最大的且大于聚类阈值b的一对点V₁与V₂，如果找不到，则终止聚类，输出一级聚类结果，转步骤41）进行二级聚类；

步骤33）将V₁和V₂看成一个新簇，重新它与其它点的相似度并更新相似度矩阵，计算方法如下：

步骤34）将这两个点V₁（行号为nRowIndex）与V₂(列号为nColIndex)合并为一个新簇NewCluster，将m_cluster[nColIndex]中的点并入到m_cluster[nRowIndex]中，并清空簇m_cluster[nColIndex]中的点。

5.根据权利要求1所述的一种快速的短文本双聚类方法，其特征在于：所述的步骤4包括以下步骤：

步骤41）将包含分句的短文本S按逗号、句号、问号、叹号进行切分，形成若干分句P_i；

步骤42）计算每个分句P_i和簇Cluster的相似度，计算方法如下：

步骤43）通过步骤42）计算短文本S中的每个分句P_i与簇Cluster的相似度CSim(P_i,Cluster)后，通过以下方法求的短文本S与簇Cluster的相似度：

步骤44）利用步骤43）得到的相似度重新构造相似度稀疏矩阵，调用一级聚类方法中的步骤31）至步骤33）聚类算法进行二级聚类。