[发明专利]文本聚类的方法及装置在审
申请号: | 201510802485.0 | 申请日: | 2015-11-19 |
公开(公告)号: | CN106776600A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 林漫鹏 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京鼎佳达知识产权代理事务所(普通合伙)11348 | 代理人: | 王伟锋,刘铁生 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 方法 装置 | ||
技术领域
本发明涉及计算机技术领域,尤其涉及一种文本聚类的方法及装置。
背景技术
文本聚类是指将文本集合中的文本划分为多个文本簇,同一文本簇中的文本具有较高的相似度,不同文本簇中的文本相似度较低。区别于分类领域中预先给定的分类主题或标签,聚类中的归类依据是通过随机选取文本特征,或者通过计算所有文本的特征均值获得的,这个归类的依据也被称为质心或中心对象。在进行聚类时,将具有相同或相似文本特征的文本归类到一个文本簇中。通常一个文本簇对应一个质心,不同文本簇的质心互不相同。
现有的文本聚类过程需要人工设定希望获得的文本簇的数量,然后将待聚类的文本集合进行格式转换并输入到聚类模型中,从而获得该预定数量的文本簇。但是发明人发现,文本簇数量通常是独立设定的,并且设定之后就无法改变。对于规模较大的文本集合而言,使用固定文本簇数量进行聚类容易获得较大的文本簇。大文本簇中的文本数量多,文本特征杂乱,通常不被认为是理想的聚类结果。
发明内容
本发明提供了一种文本聚类的方法及装置,能够解决大规模文本聚类效果差的问题。
为解决上述问题,本发明一方面提供了一种文本聚类的方法,该方法包括:
按照预定的文本簇数量k对文本集合进行一次聚类,获得k个一级文本簇,k为大于1的正整数;
获取目标一级文本簇,目标一级文本簇包括的文本数量大于k;
按照k对目标一级文本簇进行二次聚类。
另一方面,本发明提供了另一种文本聚类的装置,该装置包括:
聚类单元,用于按照预定的文本簇数量k对文本集合进行一次聚类,获得k个一级文本簇,k为大于1的正整数;
获取单元,用于获取目标一级文本簇,目标一级文本簇包括的文本数量大于k;
聚类单元还用于按照k对目标一级文本簇进行二次聚类。
借由上述技术方案,本发明提供的文本聚类的方法及装置,按照预定的文本簇数量k对文本集合进行一次聚类,从进行一次聚类后得到的一级文本簇中获取目标一级文本簇,目标一级文本簇包括的文本数量大于k;之后,按照k对目标一级文本簇进行二次聚类。这样,与现有技术仅对文本集合进行一次聚类相比,本发明在进行一次聚类后,若存在目标一级文本簇,则继续对目标一级文本簇进行二次聚类,以减少目标一级文本簇包括文本数量,进而增加了聚类的明确性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种文本聚类的方法的流程图;
图2示出了本发明实施例提供的另一种文本聚类的方法的流程图;
图3示出了本发明实施例提供的又一种文本聚类的方法的流程图;
图4示出了本发明实施例提供的一种文本聚类的装置的结构示意图;
图5示出了本发明实施例提供的另一种文本聚类的装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显 示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本实施例提供了一种文本聚类的方法。请参考图1,其示出了本实施例提供的一种文本聚类的方法的流程图。如图1所示,文本聚类的方法可以包括以下步骤:
101、按照预定的文本簇数量k对文本集合进行一次聚类,获得k个一级文本簇,其中,k可以为大于1的正整数。
聚类为将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。在本实施例中,上述记载的对象可以包括文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510802485.0/2.html,转载请声明来源钻瓜专利网。