[发明专利]一种文本聚类系统、方法、装置、设备及介质在审
申请号: | 202010947082.6 | 申请日: | 2020-09-10 |
公开(公告)号: | CN114168729A | 公开(公告)日: | 2022-03-11 |
发明(设计)人: | 段新宇;秦善夫;卢栋才;王喆锋;怀宝兴;袁晶 | 申请(专利权)人: | 华为云计算技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 常忠良 |
地址: | 550025 贵州省贵阳市*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 系统 方法 装置 设备 介质 | ||
1.一种文本聚类系统,其特征在于,所述系统包括:
聚类装置、交互装置;
所述聚类装置,用于对多个文本进行聚类,得到初始聚类结果;
所述交互装置,用于呈现从所述聚类装置获取的所述初始聚类结果,并响应针对所述初始聚类结果中第一部分的调整操作,得到第一聚类结果;
所述聚类装置,还用于根据所述调整操作,将所述初始聚类结果中的第二部分更新为第二聚类结果。
2.根据权利要求1所述的系统,其特征在于,所述聚类装置,还用于对聚类得到所述初始聚类结果的过程中涉及的中间信息进行记录,并根据所述中间信息以及所述调整操作将所述初始聚类结果中的第二部分更新为所述第二聚类结果。
3.根据权利要求2所述的系统,其特征在于,所述中间信息包括所述多个文本中单词之间的相似度、文本之间的相似度、单词的权重值以及单词属性的定义等信息中的任意一种或多种。
4.根据权利要求1至3任一项所述的系统,其特征在于,所述调整操作,包括所述多个文本中单词属性的定义操作、单词之间关联性定义操作、文本之间关联性定义操作、聚类类目定义操作、噪音标注操作以及聚类类目特征的标注操作中的任意一种或多种。
5.根据权利要求1至4任一项所述的系统,其特征在于,所述聚类装置具体用于:
计算所述多个文本中不同文本之间的相似度;
根据所述不同文本之间的相似度,计算所述多个文本中不同文本与聚类类目之间的相似度,并基于所述不同文本与聚类类目之间的相似度确定所述初始聚类结果;
计算用于表征聚类类目特征的文本与关键词。
6.根据权利要求1至5任一项所述的系统,其特征在于,所述多个文本中包括标准文本以及待聚类文本,所述标准文本已完成聚类;
所述聚类装置,具体用于根据所述标准文本对所述待聚类文本进行聚类。
7.根据权利要求1至6任一项所述的系统,其特征在于,所述聚类装置,具体用于对所述多个文本进行预处理,所述预处理包括分词、错误纠正、去噪、去除停用词、词性检测中的任意一种或多种,并对经过预处理的多个文本进行聚类,得到所述初始聚类结果。
8.一种文本聚类方法,其特征在于,所述方法应用于聚类装置,所述方法包括:
对多个文本进行聚类,得到初始聚类结果;
向交互装置发送所述初始聚类结果;
根据所述交互装置发送的针对于所述初始聚类结果中第一部分的调整操作,将所述初始聚类结果中的第二部分更新为第二聚类结果。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
对聚类得到所述初始聚类结果的过程中涉及的中间信息进行记录;
则所述根据所述交互装置发送的针对于所述初始聚类结果中第一部分的调整操作,将所述初始聚类结果中的第二部分更新为第二聚类结果,包括:
根据所述中间信息以及所述调整操作将所述初始聚类结果中的第二部分更新为所述第二聚类结果。
10.根据权利要求9所述的方法,其特征在于,所述中间信息包括所述多个文本中单词之间的相似度、文本之间的相似度、单词的权重值、以及单词属性的定义等信息中的任意一种或多种。
11.根据权利要求8至10任一项所述的方法,其特征在于,所述调整操作,包括所述多个文本中单词属性的定义操作、单词之间关联性定义操作、文本之间关联性定义操作、聚类类目定义操作、噪音标注操作以及聚类类目特征的标注操作中的任意一种或多种。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为云计算技术有限公司,未经华为云计算技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010947082.6/1.html,转载请声明来源钻瓜专利网。