[发明专利]一种基于一致性聚类的Web文本分类方法有效

申请号：	201310025642.2	申请日：	2013-01-21
公开（公告）号：	CN103049581A	公开（公告）日：	2013-04-17
发明（设计）人：	吴俊杰;刘洪甫;李红;韩小汀	申请（专利权）人：	北京航空航天大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京远大卓悦知识产权代理事务所(普通合伙) 11369	代理人：	史霞
地址：	100191 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于一致性 web 文本分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于一致性聚类的Web文本分类方法，其特征在于，包括以下步骤：

步骤一，输入一段文字信息数据，其中包括n个文本；

步骤二，根据含有m个词汇的预设词库，对n个文本进行分词处理；

步骤三，根据每个文本中的分词在词库中出现的次数，制作每个文本的m维向量空间模型，n个文本组合在一起形成n×m的向量空间矩阵；

步骤四，在n×m的向量空间矩阵中随机提取n×m′的子矩阵，其中m′小于m，对n×m′子矩阵进行聚类分析；

步骤五，重复步骤四r次，直到得到r个聚类分析结果；

步骤六，将r个聚类分析结果再进行聚类分析，得到最终聚类结果，这个最终聚类结果表征n个文本之间的归类关系，由此将n个文本分类。

2.如权利要求1所述的基于一致性聚类的Web文本分类方法，其特征在于，所述步骤一中的文字信息数据来源于在互联网上抓取一预设时间段内的文字信息数据。

3.如权利要求2所述的基于一致性聚类的Web文本分类方法，其特征在于，所述在互联网上抓取一预设时间段内的文字信息数据包括抓取特定网站、论坛、博客或微博中的Web文本数据。

4.如权利要求3所述的基于一致性聚类的Web文本分类方法，其特征在于，在权利要求1所述步骤二中，对每个文本进行分词处理都包括以下步骤：

1)去掉Web文本的所有格式标签；

2)去掉无标签文本中的停止词；

3)根据预设词库中的词汇，按照文本文字从前到后的顺序，对文本中的文字进行分词拆分。

5.如权利要求4所述的基于一致性聚类的Web文本分类方法，其特征在于，所述步骤三中的m维向量空间模型为将一个文本中的分词与m个词汇进行比较，如果m个词汇中的一个词汇在该文本中出现a次，则在该词汇下记录a，如果m个词汇中的一个词汇在该文本中没有出现，则在该词汇下记录0，最后再根据预设词库中m个词汇的排列次序对记录值进行排序，由此得到所述m维向量空间模型。

6.如权利要求5所述的基于一致性聚类的Web文本分类方法，其特征在于，所述步骤四中的m′为m的十分之一。

7.如权利要求1或6所述的基于一致性聚类的Web文本分类方法，其特征在于，所述步骤四中的聚类分析采用K均值聚类算法。

8.如权利要求1所述的基于一致性聚类的Web文本分类方法，其特征在于，所述步骤六中的将r个聚类分析结果再进行聚类分析的方法如下：

1)先将每一个聚类分析结果转化为0-1二元矩阵，其中二元矩阵的行数为n，列数为该聚类分析结果中的最大值，即包含的类的个数；

2)将得到的所有0-1二元矩阵组合形成n×(每一个聚类分析结果的类别个数之和)的二元矩阵；

3)采用K均值聚类算法对组合形成的0-1二元矩阵进行聚类分析，得到最终聚类结果。

9.如权利要求1所述的基于一致性聚类的Web文本分类方法，其特征在于，所述随机提取为简单随机抽样提取。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京航空航天大学，未经北京航空航天大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201310025642.2/1.html，转载请声明来源钻瓜专利网。