[发明专利]文本聚类方法、装置及计算设备有效
申请号: | 201510944341.9 | 申请日: | 2015-12-16 |
公开(公告)号: | CN105574156B | 公开(公告)日: | 2019-03-26 |
发明(设计)人: | 胡斐然;王楠楠 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 方法 装置 计算 设备 | ||
本发明实施例公开了一种文本聚类方法。用于文本聚类的设备获取了待聚类的文本后,将待聚类的文本中的数字替换为第一标识,并将待聚类的文本中相邻的第一标识合并获取待聚类的文本的预处理文本,对待聚类的文本的预处理文本进行聚类。通过对待聚类的文本进行预处理,提取了待聚类的文本的格式,根据待聚类的文本的格式对待聚类的文本进行聚类,提升了文本聚类的精度。
技术领域
本发明涉及计算机技术领域,尤其涉及一种文本聚类方法,文本聚类装置以及用于文本聚类的计算设备。
背景技术
当存在大量文本时,常需要对这些文本进行聚类,即将大量文本归类到一定数量的簇(英文:cluster)中,以方便后续对这些文本的处理。
文本的聚类过程,也即将相似的文本聚集到一起的过程。现有技术中,常根据文本内包含的内容来计算文本之间的相似度,一般包含相同内容较多的多个文本被视为相似程度较高。
然而,一些类型的文本,例如日志,包含的内容会随着输入参数和输出参数的变化而变化,因此根据文本包含的内容来对这些文本进行聚类的精度不高。
发明内容
本申请提供了一种文本聚类方法,文本聚类装置以及用于文本聚类的计算设备,以提升文本聚类的精度。
本申请的第一方面提供了一种文本聚类方法,该方法由计算机执行,包括:接收待聚类的N个文本,N为大于1的整数,将这N个文本中的数字替换为第一标识。对这N个文本执行预处理操作,将这N个文本中相邻的第一标识合并,获得这N个文本对应的N个预处理文本。对N个预处理文本进行分词,获取这N个预处理文本的分词结果,并获取这N个预处理文本的分词结果中各个词的统计特征。根据这N个预处理文本的分词结果中各个词的统计特征,对这N个文本进行聚类。
通过对待聚类的文本进行预处理操作,使得文本的预处理文本中保留的不再是文本的内容本身,而是文本的格式,随后根据各个文本的预处理文本来对文本进行聚类,使得聚类过程能够将文本的格式加入考虑,提升了文本聚类的精度。
结合第一方面,在第一方面的第一种实现方式中,不仅将N个文本中的数字替换为第一标识,还将这N文本中的字素替换为第二标识。因此,预处理操作还包括:将相邻的两个第二标识合并为一个第二标识。
进一步的,不仅仅针对待聚类的文本中的数字进行处理,还对待聚类的文本中的字素进行处理,进一步抽象出待处理的文本的格式,以供后续聚类中使用,能够进一步提升文本聚类的精度。
结合第一方面和第一方面的第一种实现方式,在第一方面的第二种实现方式中,对N个文本进行聚类后,获取M个文本簇。从每个文本簇的文本中提取该文本簇对应的正则表达式;获取新文本,判断新文本是否满足M个文本簇中任一文本簇对应的正则表达式,如果该新文本符合任一文本簇对应的正则表达式,则该新文本属于该文本簇。
从已经获得的文本簇中提取正则表达式,获取各个文本簇在内容上的共性,获取了新文本之后,无须将新文本和已经执行过聚类的文本一起重新进行聚类,而是将新文本与各个文本簇对应的正则表达式进行匹配,大幅提升了新文本的聚类速度。
结合第一方面和第一方面的第一种实现方式,在第一方面的第三种实现方式中,对N个文本进行聚类后,获取M个文本簇。从每个文本簇包括的文本的预处理文本中提取该文本簇对应的正则表达式;获取新文本,判断新文本是否满足M个文本簇中任一文本簇对应的正则表达式,如果该新文本符合任一文本簇对应的正则表达式,则该新文本属于该文本簇。
从已经获得的文本簇的预处理文本中提取正则表达式,获取各个文本簇的预处理文本在格式上的共性,获取了新文本之后,无须将新文本和已经执行过聚类的文本一起重新进行聚类,而是将新文本与各个文本簇对应的正则表达式进行匹配,大幅提升了新文本的聚类速度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510944341.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种内存数据库的安全审计系统及审计方法
- 下一篇:图像存储方法和设备