[发明专利]短文本的聚类方法、装置、介质及电子设备在审
申请号: | 201811563089.7 | 申请日: | 2018-12-20 |
公开(公告)号: | CN109710760A | 公开(公告)日: | 2019-05-03 |
发明(设计)人: | 李渊 | 申请(专利权)人: | 泰康保险集团股份有限公司;泰康在线财产保险股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/27 |
代理公司: | 隆天知识产权代理有限公司 72003 | 代理人: | 章侃铱;李玉锁 |
地址: | 100031 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 短文本 语义特征 向量 分类 聚类 局部特征 全局特征 初始聚类中心 循环神经网络 注意力机制 电子设备 聚类算法 向量聚类 语义 迭代 | ||
1.一种短文本的聚类方法,其特征在于,该方法包括:
通过循环神经网络和注意力机制获取多个待分类短文本的语义特征向量,所述多个待分类短文本的语义特征向量中的每个待分类短文本的语义特征向量含有待分类短文本的上下文局部特征、全局特征和语义相关短文本的上下文局部特征和全局特征,所述语义相关短文本是对所述待分类短文本的语义的补充;
利用聚类算法根据k个初始聚类中心点,对所述多个待分类短文本的语义特征向量进行迭代聚类,将所述多个待分类短文本的语义特征向量分为多个短文本类,所述k个初始聚类中心点包括从所述多个待分类短文本的语义特征向量中选中的k个待分类短文本的语义特征向量。
2.根据权利要求1所述的方法,其特征在于,所述聚类算法包括K-means算法。
3.根据权利要求2所述的方法,其特征在于,利用聚类算法根据k个初始聚类中心点,对所述多个待分类短文本的语义特征向量进行迭代聚类,将所述多个待分类短文本的语义特征向量分为多个短文本类包括:
利用所述K-means算法依次计算所述多个待分类短文本的语义特征向量中未被选中的待分类短文本的语义特征向量与k个聚类中心的距离,并根据最小距离原则对所述未被选中的语义特征向量进行聚类;
根据聚类的结果,将每个聚类中的每个待分类短文本的语义特征向量的均值作为所述每个聚类中的中心点;
根据所述每个聚类中的中心点,对所述每个聚类中的每个待分类短文本的语义特征向量进行迭代聚类,直至满足预设条件以将所述多个待分类短文本的语义特征向量分为多个短文本类。
4.根据权利要求1所述的方法,其特征在于,通过循环神经网络和注意力机制获取多个待分类短文本的语义特征向量包括:
利用循环神经网络获取待分类短文本的具有上下文局部特征的特征向量序列和语义相关短文本的具有上下文局部特征的特征向量序列;
基于所述待分类短文本的具有上下文局部特征的特征向量序列和所述待分类短文本的具有上下文局部特征的特征向量序列中每个特征向量的注意力权重,生成所述待分类短文本的具有上下文局部特征和全局特征的特征向量,以及基于所述语义相关短文本的具有上下文局部特征的特征向量序列和所述语义相关短文本的具有上下文局部特征的特征向量序列中每个特征向量的注意力权重,生成所述语义相关短文本的具有上下文局部特征和全局特征的特征向量;
根据所述待分类短文本的具有上下文局部特征和全局特征的特征向量、所述语义相关短文本的具有上下文局部特征和全局特征的特征向量,确定所述多个待分类短文本的语义特征向量。
5.根据权利要求4所述的方法,其特征在于,在利用循环神经网络获取待分类短文本的具有上下文局部特征的特征向量序列和语义相关短文本的具有上下文局部特征的特征向量序列之前,该方法还包括:
对所述待分类短文本和所述语义相关短文本分别进行分词处理,得到所述待分类短文本的单词和所述语义相关短文本的单词;
对所述待分类短文本的单词和所述语义相关短文本的单词分别进行分布式表示,得到待分类短文本的词向量序列和语义相关短文本的词向量序列。
6.根据权利要求1所述的方法,其特征在于,所述循环神经网络包括双向循环神经网络,所述双向循环神经网络中的循环神经网络包括基于长短时记忆LSTM和/或基于门控循环单元GRU的网络。
7.根据权利要求5所述的方法,其特征在于,该方法还包括:
基于所述待分类短文本的具有上下文局部特征的特征向量序列和所述语义相关短文本的具有上下文局部特征的特征向量序列,生成背景信息,所述背景信息包括待分类短文本的词向量和语义相关短文本的词向量在循环神经网络最后时刻之前的所有时间状态的语义信息;
根据所述背景信息,确定所述待分类短文本的具有上下文局部特征的特征向量序列中每个时刻特征向量的注意力权重和所述语义相关短文本的具有上下文局部特征的特征向量序列中每个时刻特征向量的注意力权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于泰康保险集团股份有限公司;泰康在线财产保险股份有限公司,未经泰康保险集团股份有限公司;泰康在线财产保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811563089.7/1.html,转载请声明来源钻瓜专利网。