[发明专利]基于自适应子空间学习的迭代文本聚类方法有效

申请号：	201310230981.4	申请日：	2013-06-09
公开（公告）号：	CN103279556A	公开（公告）日：	2013-09-04
发明（设计）人：	吴娴;杨兴锋;张东明;何崑	申请（专利权）人：	南方报业传媒集团
主分类号：	G06F17/30	分类号：	G06F17/30;G06K9/66
代理公司：	广州市华学知识产权代理有限公司 44245	代理人：	杨晓松
地址：	510601 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于自适应空间学习文本方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于自适应子空间学习的迭代文本聚类方法，其特征在于，包括以下步骤：

（1）初始化：将文本语料表示成文本向量空间的数学形式，在文本向量空间上采用仿射传播聚类方法产生初始的K个聚类，进而得到表示文本语料中所有文档所属类别的初始类归属指示矩阵；

（2）子空间投影和聚类之间的迭代优化，包括以下步骤：

（2-1）以步骤（1）中获得的初始类归属指示矩阵作为先验知识，采用基于平均邻域边缘最大化的子空间学习方法求解子空间投影矩阵，并且基于初始类归属指示矩阵和子空间投影矩阵计算收敛函数值；

（2-2）若未满足收敛条件，则将原始文本向量空间根据当前子空间投影矩阵投影到子空间中，在子空间中继续采取仿射传播聚类方法产生指定K个聚类，更新当前的类归属指示矩阵；

（2-3）以更新后的类归属指示矩阵作为先验知识，采用基于平均邻域边缘最大化的子空间学习方法求解子空间投影矩阵，并且基于更新后的类归属指示矩阵与子空间投影矩阵计算收敛函数值；

（2-4）重复步骤（2-2）-（2-3），直到满足收敛条件，停止迭代，从迭代过程输出最终的类归属指示矩阵，得到所有文档的最终聚类结果。

2.根据权利要求1所述的基于自适应子空间学习的迭代文本聚类方法，其特征在于，所述步骤（1）初始化过程如下：从所有文档的分词表达中采用互信息方法选择出一组代表性词项的集合构成词项索引；然后根据词项索引分别将每个文档表示为一个文本向量，则每个文本向量的维数即对应于选择出的词项索引的大小，向量的每个元素值用tfidf权重表示；若每个文档都用文本向量表示，则文本语料中所有文档即构成一个文本向量空间；在原始文本向量空间中采取仿射传播聚类算法产生指定K个初始聚类，每个文档获得其初始类别，将所有文档的初始聚类类别汇总形成初始类归属指示矩阵。

3.根据权利要求2所述的基于自适应子空间学习的迭代文本聚类方法，其特征在于，所述步骤（1）中，向量每个元素值用tfidf权重表示，方法如下：

对于词项索引中的某个词项t_i，文档x_j的tfidf权重表示为：

tfidfi,j=tfi,j×idfi=tfi,j×log(|D|dfi);]]>

其中tf_i，j表示词项t_i在文档x_j中出现的词频，｜D|是文本语料中所有文档的数量，df_i是词项t_i至少出现过一次的文档数量，假设词项索引为v=[t₁、t₂，…，t_m]，则文档x_j表示为m维向量x_j=[tfidf_1，j，tfidf_2，j，…，tfidf_m，j]^T。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南方报业传媒集团，未经南方报业传媒集团许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201310230981.4/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于自适应子空间学习的迭代文本聚类方法有效

专利文献下载