[发明专利]一种文本聚类系统、方法、装置、设备及介质在审
申请号: | 202010947082.6 | 申请日: | 2020-09-10 |
公开(公告)号: | CN114168729A | 公开(公告)日: | 2022-03-11 |
发明(设计)人: | 段新宇;秦善夫;卢栋才;王喆锋;怀宝兴;袁晶 | 申请(专利权)人: | 华为云计算技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 常忠良 |
地址: | 550025 贵州省贵阳市*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 系统 方法 装置 设备 介质 | ||
本申请提供了一种文本聚类系统,包括聚类装置以及交互装置。其中,聚类装置,用于对多个文本进行聚类,得到初始聚类结果,而交互装置可以呈现从聚类装置获取的初始聚类结果,并响应针对初始聚类结果中第一部分的调整操作,得到第一聚类结果;聚类装置还根据针对于该第一部分的调整操作,将初始聚类结果中的第二部分更新为第二聚类结果。如此,不仅实现了调整后的聚类结果符合用户的预期,而且,用户是直接对聚类结果进行调整,无需根据聚类错误分析如何调整聚类算法的模型参数,以此可以缩短优化聚类结果的耗时,从而可以提高整个文本聚类过程的效率。此外,本申请还提供了一种文本聚类方法、装置、设备及介质。
技术领域
本申请涉及数据处理技术领域,尤其涉及一种文本聚类系统、方法、装置、设备及计算机可读存储介质。
背景技术
随着信息技术的发展,互联网累计了大量的文本数据。文本聚类技术,通过对文本信息进行有效的组织、摘要和导航,将语义相似度较大的文本汇聚为一簇,以此可以从海量文本数据中挖掘出有效信息。
在文本聚类过程中,可以采用交互式聚类的方式提高文本聚类的准确率。具体的,聚类算法在给出聚类结果后,用户可以捕捉该聚类结果中所存在的聚类错误,并基于所捕捉到的聚类错误调整聚类算法的模型参数,以便于聚类算法基于调整后的模型重新执行文本聚类过程。如此,基于用户对模型参数的多次调整,最终可以使得聚类算法所输出的聚类结果的准确率能够满足用户的要求。
但是,基于用户调整聚类算法的模型参数来优化聚类算法输出的聚类结果,这使得整个文本聚类过程的耗时较高,文本聚类效率较低。
发明内容
本申请提供了一种基于协同架构的文本聚类系统,通过对用户未调整的聚类结果进行自动调整,提高文本聚类的效率。本申请还提供了对应的方法、装置、设备、存储介质以及计算机程序产品。
第一方面,本申请提供了一种文本聚类系统,其包括聚类装置以及交互装置。其中,聚类装置,用于对多个文本进行聚类,得到初始聚类结果,而交互装置可以呈现从聚类装置获取的初始聚类结果,并响应用户针对初始聚类结果中第一部分的调整操作,得到第一聚类结果,相应的,聚类装置还可以根据针对于该第一部分的调整操作,将初始聚类结果中的第二部分更新为第二聚类结果,以实现对初始聚类结果的优化。由于在修正聚类结果的过程中,用户可以对部分聚类结果进行调整,并由聚类装置根据用户的调整操作,对剩余的聚类结果进行自动调整,这不仅实现了调整后的聚类结果符合用户的预期,而且,用户是直接对聚类结果进行调整,无需根据聚类错误分析如何调整聚类算法的模型参数,以此可以缩短优化聚类结果的耗时,从而可以提高整个文本聚类过程的效率。同时,相比于用户通过调整模型参数的方式来优化聚类结果,用户直接对聚类结果进行调整,不仅可以降低对于用户的技术水平要求,而且,可以聚类结果的优化效果通常更符合用户的预期。
结合第一方面,在第一方面的第一种可能的实施方式中,聚类装置,还可以用于对聚类得到初始聚类结果的过程中涉及的中间信息进行记录,并根据该中间信息以及调整操作将初始聚类结果中的第二部分更新为第二聚类结果。如此,聚类装置在自动调整初始聚类结果中的第二部分聚类结果时,无需重新计算所有信息,如文本之间的相似度等,而是可以是复用之前聚类得到初始聚类结果的过程中所计算出的中间信息,从而不仅可以降低重新进行文本聚类所需的计算量,而且,也可以有效提高文本聚类效率。
结合第一方面的第一种实施方式,在第一方面的第二种可能的实施方式中,该中间信息可以包括多个文本中单词之间的相似度、文本之间的相似度、单词的权重值以及单词属性的定义等信息中的任意一种或多种。实际应用中,中间信息还可以包括其它信息,如经过预处理后的文本、单词在文本中的词序等信息,本申请中对记录的中间信息并不进行限定。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为云计算技术有限公司,未经华为云计算技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010947082.6/2.html,转载请声明来源钻瓜专利网。