[发明专利]聚类方法和聚类设备在审
申请号: | 201910662715.6 | 申请日: | 2019-07-22 |
公开(公告)号: | CN110362685A | 公开(公告)日: | 2019-10-22 |
发明(设计)人: | 闫桂霞;林媛;王晓利;王瑞琛;伍海江 | 申请(专利权)人: | 腾讯科技(武汉)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 王娟;黄玫 |
地址: | 430000 湖北省武*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 聚类 关键词组 聚类设备 句子 预处理 句子分配 词组 语料 集合 | ||
1.一种聚类方法,包括:
针对经过预处理的语料数据,提取至少一个频繁项,所述频繁项为在所述语料数据的句子中同时出现的次数大于第一预定阈值的词组集合;
以每一个频繁项作为关键词组,建立多个类;以及
确定所述语料数据中的每一个句子所对应的一个频繁项,并将所述句子分配到以确定的频繁项作为关键词组的类中。
2.根据权利要求1所述的方法,其中所述词组集合中包括的词的最大数量大于2。
3.根据权利要求1所述的方法,其中确定所述语料数据中的每一个句子所对应的一个频繁项包括:
当一个句子中出现多个频繁项时,基于频繁项中包含的词语数量以及频繁项在所述语料数据中出现的次数,确定频繁项的分数;以及
将分数最高的频繁项确定为该句子所对应的一个频繁项。
4.根据权利要求1所述的方法,进一步包括:
基于层次聚类,对所述多个类进行合并;以及
以合并后得到的各个类更新所述多个类。
5.根据权利要求4所述的方法,进一步包括:
针对更新后的所述多个类中的每一个,在所述类包括的至少一个关键词组中选择一个,作为所述类的关键词组。
6.根据权利要求4所述的方法,其中基于层次聚类,对所述多个类进行合并进一步包括:
确定各类对应的向量之间的相似度,将相似度大于第二预定阈值的类合并;以及
对于合并后得到的各个类,重复地执行确定相似度以及基于相似度合并的处理,直至不再存在相似度大于第二预定阈值的两个类为止。
7.根据权利要求5所述的方法,其中针对更新后的所述多个类中的每一个,在所述类包括的至少一个关键词组中选择一个,作为所述类的关键词组包括:
针对每一个类包括的至少一个关键词组,基于关键词组中包含的词数以及关键词组在类中出现的次数,确定关键词组的分数;以及
将分数最高的关键词组确定为该类的关键词组。
8.根据权利要求1或4所述的方法,进一步包括:
确定所述多个类中的每一个类的摘要。
9.根据权利要求8所述的方法,其中确定所述多个类中的每一个类的摘要包括:
针对所述多个类中的每一个,执行如下处理:
对一个类中的每一个句子进行向量化;
基于各个句子所对应的向量之间的相似度进行聚类,以得到每一个均包含多个句子的多个子类;
分别从包含句子数量最多的第一预定数量的子类中,选择句子长度最短的第二预定数量的句子;以及
基于所选择的句子,确定所述类的摘要。
10.根据权利要求8所述的方法,进一步包括:
基于每一个类的摘要,针对未聚类到任何一个类的语料数据中的每一个句子进行补充聚类。
11.根据权利要求10所述的方法,其中基于每一个类的摘要,针对未聚类到任何一个类的语料数据中的每一个句子进行补充聚类进一步包括:
针对每一个类的摘要中的句子进行向量化,并且针对未聚类到任何一个类的语料数据中的每一个句子进行向量化;
确定每一个句子的向量与每一个类的摘要的向量之间的相似度;以及
如果存在相似度大于第三预定阈值的一个或多个类,则将该句子分配到相似度最高的类中。
12.根据权利要求9所述的方法,其中通过执行以下处理来实现句子的向量化:
将一个句子中包括的每一个字输入至一映射网络,并且从所述映射网络输出与每一个字对应的向量,其中当两个字的语义相近时,所述映射网络输出的与这两个字对应的向量之间的距离也相近;以及
确定所有字对应的向量的均值,并将所述均值作为与该句子对应的向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(武汉)有限公司,未经腾讯科技(武汉)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910662715.6/1.html,转载请声明来源钻瓜专利网。