[发明专利]一种基于Mean Shift的融合词性和句子信息的词表示方法有效
申请号: | 201810534989.2 | 申请日: | 2018-05-30 |
公开(公告)号: | CN108763487B | 公开(公告)日: | 2021-08-10 |
发明(设计)人: | 邓辉舫;赖港明 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30;G06K9/62 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 冯炳辉 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 mean shift 融合 词性 句子 信息 词表 方法 | ||
1.一种基于Mean Shift的融合词性和句子信息的词表示方法,其特征在于,包括以下步骤:
1)对语料进行分词和词性标注;
2)使用skim-gram、CROW方法训练得到字词联合向量;
3)通过使用skim-gram、CROW方法训练直接得到词性向量或使用属于同一词性的所有词向量的平均值作为词性向量;
4)统计词对应的上下文,用Attention机制和词性向量生成句子向量,对句子向量进行主成分分析PCA,得到低维的上下文矩阵,包括以下步骤:
4.1)计算词对应的上下文矩阵,矩阵中的每一行代表一个词上下文,计算公式如下:
其中,代表字词联合词向量ui的第j个上下文,代表字词联合词向量ui的第j个上下文的长度,u是上下文中的某一个词的字词联合向量,β为模型的超参数,范围在[10-3-10-4]最合适,P(u)为语料中字词联合向量u的词频,POS(u)为字词联合向量u对应的词性向量,由步骤2)获得;
4.2)对步骤4.1)生成的每一个词对应的上下文矩阵进行主成分分析PCA,提取经过PCA后的上下文矩阵的第一主元素,对上下文矩阵中每一个元素进行更新,计算公式如下:
其中,代表字词联合词向量ui的第j个上下文,v为PCA变换矩阵的第一主元素,vT为v的转置向量;
5)对上下文矩阵进行Mean Shift聚类,对Top-K聚类中心进行加权求和后得到上下文向量;
6)对字词联合向量、词性向量和上下文向量加权求和得到最终的词向量表示。
2.根据权利要求1所述的一种基于Mean Shift的融合词性和句子信息的词表示方法,其特征在于:在步骤1)中,所述的词性标注包括1998年和2014年人民日报标注语料,采用的词性标注工具有jieba、HanLP和NLPIR。
3.根据权利要求1所述的一种基于Mean Shift的融合词性和句子信息的词表示方法,其特征在于:在步骤2)中,使用skim-gram、CROW方法训练词向量和字向量得到字词联合向量,包括以下步骤:
2.1)进行数据清理,去除步骤1)生成的词序列中的标点符号、特殊字符;
2.2)使用skip-gram或CROW方法分别训练得到词向量wi,字向量ci;
2.3)对步骤2.2)生成的字向量和词向量进行加权求和,得到的字词联合向量:
其中,ui为字词联合向量,wi为词语i的词向量,ci为词语i包含的字向量,|ci|为词语i包含的字的个数,α为模型的超参数,为字向量的占比。
4.根据权利要求1所述的一种基于Mean Shift的融合词性和句子信息的词表示方法,其特征在于:在步骤3)中,使用两种方法生成词性向量,方法一是直接对词性标注序列,使用skim-gram、CROW方法训练词性向量,训练参数设置和步骤2)一致;方法二是使用步骤2)生成的字词联合向量,对于每一类词性使用属于该词性的所有词的向量的平均值作为该词性的向量表示;方法一和方法二得到的词性向量记为:POS(ui)。
5.根据权利要求1所述的一种基于Mean Shift的融合词性和句子信息的词表示方法,其特征在于:在步骤5)中,对上下文矩阵进行Mean Shift聚类,获取Top-K聚类中心,对聚类中心进行加权求和后得到词的上下文向量,计算公式如下:
其中,Context(ui)为字词联合向量ui对应的上下文向量,为经过Mean Shift聚类后的第j个聚类中心,rj为聚类类别j的占比,K为聚类类别包含的元素最多的前K个。
6.根据权利要求1所述的一种基于Mean Shift的融合词性和句子信息的词表示方法,其特征在于:在步骤6)中,对得到的字词联合向量、词性向量和上下文向量使用矩阵汇总保留,矩阵形式如下所示:
其中,WR(wi)为最终保留上下文和概率的词矩阵,U为步骤2)生成的字词联合向量ui,S为步骤5)生成的上下文向量Context(ui),r为上下文向量的概率,即步骤5)对应的聚类类别占比rj;
设计以下两种方式的降维表示,以转化为常用的词向量形式:
方法一:加权求和得到最终的词向量表示;通过更改ρ的比例适应不同的需求,若需要寻找与目标词词性相近的词语则提高ρ2的比例;需寻找上下文相近的词语则提高ρ3的比例;计算公式如下:
其中,Wi为最终的词向量表示,ρ1、ρ2和ρ3为模型的超参数,分别为字词联合向量、词性向量和上下文向量的建模比例;
方法二:使用上下文向量的最大值作为词上下文的代表;很多情况下,只关心词在最常用语境下的语义,因此选取出现的上下文概率最大的上下文向量即可;计算公式如下:
其中,rk为聚类类别k的占比,j为最大rk对应的类,为经过Mean Shift聚类后的第j个聚类中心,ρ1、ρ2和ρ3为模型的超参数,分别为字词联合向量、词性向量和上下文向量的建模比例。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810534989.2/1.html,转载请声明来源钻瓜专利网。