[发明专利]一种搜索引擎中基于类中心压缩变换的文本聚类方法有效

申请号：	201210447277.X	申请日：	2012-11-09
公开（公告）号：	CN102955857A	公开（公告）日：	2013-03-06
发明（设计）人：	欧阳元新;谢舒翼;刘文琦;熊璋	申请（专利权）人：	北京航空航天大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京科迪生专利代理有限责任公司 11251	代理人：	杨学明;顾炜
地址：	100191***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种搜索引擎基于中心压缩变换文本方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于文本挖掘，机器学习研究的技术领域，特别涉及一种搜索引擎中基于类中心压缩变换的文本聚类方法，通过结合同义词组，共现关联词组，词汇中心，类中心，标题内容，文档长度等多种因素，对文本集进行反复的聚类、分裂迭代方法来提高聚类精度。该方法适用于搜索引擎，信息检索系统。

背景技术

在现实世界中，文本是信息最重要的载体，事实上，研究表明信息有80％包含在文本文档中。特别是在互联网上，文本数据广泛地存在于各种形式，如新闻报道、电子图书、研究论文、数字图书馆、网页、电子邮件等等。文本聚类技术可以应用于信息过滤、个性化的信息推荐，使人们能够准确地检索到所需要的信息，缩短信息检索的时间。同时，文本聚类是不需训练集即可划分出类属的一种方法，它能够有效解决文本的自动划分问题。文本聚类由于不需要预先对文本手工标注类别，因此具有一定的灵活性和较高的自动化处理能力，已经成为对文本信息进行有效地组织、摘要和导航的重要手段。

目前已有的文本聚类方法大部分是基于VSM（文本向量模型）模型来计算文本与文本之间的相似度，在构造文本向量的时候假设词语之间是互相独立的。这种方法忽略了同一篇文档词语和词语之间的关联性，不同文档词语和词语之间的潜在联系等。传统的聚类模型受限制于文档的输入顺序，初始类的个数，最初中心点的选择等多种条件的限制。词语之间的位置聚类和同义词的挖掘也是常规文本聚类方法忽略的内容。因而文档相似度的计算受到影响，致使聚类的结果不够精确。因此，本专利提出的方法将针对数据集的特征提取关键词，去除无意义的词汇，过滤影响因子较小的词汇，挖掘文档主题，同义词组，共现高频词组等潜在语义关系来提高聚类精度，通过压缩中心词汇，利用改进的tf-idf方法来计算词汇间的相似权重，迭代聚类和分裂新类的方法来消除文档输入顺序的影响。最终达到使同类文本相似度尽量大，不同类文本相似度尽量小。

发明内容

本发明要解决的技术问题为：克服现有技术的局限性，提供一种基于类中心压缩变换的文本聚类方法，该方法挖掘文档主题，同义词组，共现高频词组等潜在语义关系，采用类中心压缩，中心重聚类，分裂新类等变换，来提高文本聚类精度。

本发明解决上述技术问题的技术方案为：一种搜索引擎中基于类中心压缩变换的文本聚类方法，该方法包括以下步骤：

步骤1、对聚类文本集中的每一个文本进行分词；

步骤2、去除停用词，过滤影响因子较小的词；

步骤3、计算每个文本中每个词出现的次数tf；

步骤4、计算词语的反文本频率其中fileNum是文本的总数，freOccur是出现该词语的文本数量）；

步骤5、挖掘同义词组；

步骤6、挖掘共现高频词组，即同时出现在多个不同文本中的词组对；

步骤7、根据同义词组和高频共现词组，产生原始的类中心，每个类中心由一系列高频词汇组成，统计高频词汇的tf和idf，标记高频词汇所属的类中心；

步骤8、计算每个文本的内容长度，提取文章的标题，对标题进行分词；如果没有标题，则标题title设为空；提取段首词语与段尾词汇并加以标记以便后面的加权计算；

步骤9、计算任意两个文本之间的相似度，标题或内容中有相同或同义的词语时增加权重，段首词语与段尾词汇分别赋予不同的权重，计算公式如下：