[发明专利]一种融合多种特征权重的短文本聚类方法有效
申请号: | 201811600698.5 | 申请日: | 2018-12-26 |
公开(公告)号: | CN109710762B | 公开(公告)日: | 2023-08-01 |
发明(设计)人: | 王清琛;杜振东 | 申请(专利权)人: | 南京云问网络技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F18/25;G06F18/2411 |
代理公司: | 常州佰业腾飞专利代理事务所(普通合伙) 32231 | 代理人: | 滕诣迪 |
地址: | 210000 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 多种 特征 权重 文本 方法 | ||
1.一种融合多种特征权重的短文本聚类方法,其特征在于:其步骤为:
1)清洗聚类语料;
2)对清洗后的语料进行分词,并获得词性;
3)计算每篇短文本中各个词的注意力值;
4)基于清洗后的语料计算每个词的IDF值;
5)用聚类语料进行词向量的增量训练;
6)融合词性,注意力值和IDF值得到某个词最后的权重;
7)用组成短文本词语向量乘以对应权重,求和取平均得到短文本向量;
8)用获得的短文本向量作为文本特征去聚类;
9)对聚类得到的结果进行二次清洗;
根据步骤3),每篇短文本中的不同词的注意力值通过下列公式计算获得:
其中,计算词t的注意力值attentiont,该文本中一共有n个词,wt代表词t的向量
根据步骤4)中每个词的IDF值通过下列公式计算获得:
其中,nd是语料d的总条数,df(d,t)是在语料d中出现词t的语料总数;
根据步骤6),融合步骤2)中获得的词性,步骤3)中的注意力值和步骤4)中的IDF值,得到某个词最后的权重值,通过下列公式计算获得:
weight(t)=β*(α*IDF(t)+(1-α)*attention(t))
其中,weight(t)是词t最后的权重,α是词t的IDF值和attention值的比例参数,且0<α<1,β是针对不同词性设置的不同权重。
2.根据权利要求1所述的一种融合多种特征权重的短文本聚类方法,其特征在于:根据步骤1)清洗聚类语料包括:针对聚类语料,清洗掉表情、全为数字或者字母、网址链接、多余标点。
3.根据权利要求1所述的一种融合多种特征权重的短文本聚类方法,其特征在于:根据步骤2),采用开源的jieba分词器进行分词处理,并同时获得词性。
4.根据权利要求1所述的一种融合多种特征权重的短文本聚类方法,其特征在于:根据步骤5),用聚类语料进行词向量的增量训练,包括如下步骤:
(5.1)利用CBOW(Continuous Bag-of-Words)的词向量训练方法对清华语料进行词向量训练;
(5.2)使用聚类语料对步骤(5.1)中训练得到的词向量进行增量训练。
5.根据权利要求1所述的一种融合多种特征权重的短文本聚类方法,其特征在于:步骤7)用组成短文本词语向量乘以对应权重,求和取平均得到短文本向量,公式如下所示:
其中,textvectorj为短文本j的文本向量,n为短文本中包含的词的个数,weighti是由步骤6)中算得的最终权重,wordvectori为步骤5)中训练得到的词i的向量。
6.根据权利要求1所述的一种融合多种特征权重的短文本聚类方法,其特征在于:根据步骤
8),根据数据的分布,选择合适的聚类算法去聚类。
7.根据权利要求1所述的一种融合多种特征权重的短文本聚类方法,其特征在于:根据步骤9),对聚类得到的结果进行二次清洗,清洗掉簇中到簇心平均距离大于设定距离值或者簇中元素低于设定值的簇。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京云问网络技术有限公司,未经南京云问网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811600698.5/1.html,转载请声明来源钻瓜专利网。