[发明专利]短文本的聚类方法、装置、介质及电子设备在审
申请号: | 201811563089.7 | 申请日: | 2018-12-20 |
公开(公告)号: | CN109710760A | 公开(公告)日: | 2019-05-03 |
发明(设计)人: | 李渊 | 申请(专利权)人: | 泰康保险集团股份有限公司;泰康在线财产保险股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/27 |
代理公司: | 隆天知识产权代理有限公司 72003 | 代理人: | 章侃铱;李玉锁 |
地址: | 100031 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本公开提供了一种短文本的聚类方法,该方法通过循环神经网络和注意力机制获取多个待分类短文本的语义特征向量,并利用聚类算法根据k个初始聚类中心点对所述多个待分类短文本的语义特征向量进行迭代聚类,最后将所述多个待分类短文本的语义特征向量分为多个短文本类,其中所述多个待分类短文本的语义特征向量中的每个待分类短文本的语义特征向量含有待分类短文本的上下文局部特征、全局特征和语义相关短文本的上下文局部特征和全局特征,这样使得对多个待分类短文本的语义特征向量聚类时可以达到较好的短文本聚类效果,即得到的多个短文本类更加准确。 | ||
搜索关键词: | 短文本 语义特征 向量 分类 聚类 局部特征 全局特征 初始聚类中心 循环神经网络 注意力机制 电子设备 聚类算法 向量聚类 语义 迭代 | ||
【主权项】:
1.一种短文本的聚类方法,其特征在于,该方法包括:通过循环神经网络和注意力机制获取多个待分类短文本的语义特征向量,所述多个待分类短文本的语义特征向量中的每个待分类短文本的语义特征向量含有待分类短文本的上下文局部特征、全局特征和语义相关短文本的上下文局部特征和全局特征,所述语义相关短文本是对所述待分类短文本的语义的补充;利用聚类算法根据k个初始聚类中心点,对所述多个待分类短文本的语义特征向量进行迭代聚类,将所述多个待分类短文本的语义特征向量分为多个短文本类,所述k个初始聚类中心点包括从所述多个待分类短文本的语义特征向量中选中的k个待分类短文本的语义特征向量。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于泰康保险集团股份有限公司;泰康在线财产保险股份有限公司,未经泰康保险集团股份有限公司;泰康在线财产保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811563089.7/,转载请声明来源钻瓜专利网。