[发明专利]联合词性与词序的相关因子训练的word2vec改进方法有效
申请号: | 201710791297.1 | 申请日: | 2017-09-05 |
公开(公告)号: | CN107526834B | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 于重重;曹帅;潘博;张青川 | 申请(专利权)人: | 北京工商大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30;G06K9/62 |
代理公司: | 北京万象新悦知识产权代理有限公司 11360 | 代理人: | 黄凤茹 |
地址: | 100048 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 联合 词性 词序 相关 因子 训练 word2vec 改进 方法 | ||
1.一种word2vec改进方法,其特征是,建立联合词性因子与词序因子训练的Structured word2vec on POS模型;Structured word2vec on POS模型包括CWindow-POS(CWP)模型和Structured Skip gram-POS(SSGP)模型,CWP模型和SSGP模型均将词性标注信息与词语顺序作为影响因素联合优化,利用词性关联信息对上下文窗口内词语之间的固有句法关系进行建模;通过词性关联权重对上下文词语序列进行加权计算,再按词语位置顺序进行向量内积计算,使用随机梯度下降算法联合学习word embedding和词性相关性加权矩阵,实现对词向量和词性相关加权矩阵进行联合优化;包括如下步骤:
1)建立CWP模型:定义输出预测矩阵为O∈R|V|×2cd,并引入词性相关性加权矩阵,建立特征词的词向量模型CWP模型;包括:
针对训练语料Corp,CWP模型的目标函数为一个最大化每个样本标记词的对数似然函数;采用改进NS算法的训练函数,通过对式1的目标函数进行训练,计算得到最大似然概率:
式1中,QCBOW为最大似然概率;word(t)为局部中心词,t表示训练语料Corp中的词语tokens序号;Context(word(t))为word(t)上下文词语序列;Neg(word)表示word为中心词,对word抽取的反例样本集合的反例样本集合;Lword(t)(u)表示word(t)的采样词语u的标签,如果word(t)=u,Lword(t)(u)=1;否则Lword(t)(u)=0;
p(u|context(word(t)))为采样词语u跟随上下文context(word(t))共现后验概率;p(u|context(word(t)))的计算过程为:首先将输入层的词向量分别进行词性加权计算;然后将词性加权计算后的向量按上下文词语出现顺序定向嵌入到投影层中,串联性向量形式如式2:
xword(t)=[Φ-c(zt-c,zt)v(word(t-c)),......Φ-1(zt-1,zt)v(word(t-1)),Φ1(zt+1,zt)v(word(t+1)),......Φc(zt+c,zt)v(word(t+c))] (式2)
其中,Φ-c(zt-c,zt)代表的含义是距离中心词为c的位置上,词性标签zt-c与zt的相关性权值;v(word(t-c))是词语word(t-c)的词向量;
将式2代入NS算法中,得出式3:
u∈{word(t)}∪Neg(word(t))
θu(i)=O(u)[(index[i]-1)×d+1~index[i]×d]
其中,σ为Sigmod函数;xword(t)为投影层向量;O为输出层预测矩阵;O(u)为O中以u为索引的预测向量;v(word(t+i))为词语word(t+i)的向量;
将式1QCBOW中的花括号下的式子记为L,作为CWP的目标函数进行梯度推导,将式3代入L,表示为式4:
针对式4中目标函数的变量Φi(zt+i,zt)、θu(i)和v(word(t+i)) ,采用随机梯度上升法对L的上述三个变量进行梯度求导求解,然后不断优化更新,从而实现对词向量和词性相关加权矩阵进行联合优化;
2)建立SSGP模型:在SSG模型和PWE模型基础上,给定中心词的word(t)使用单个输出矩阵O∈R|V|×d来预测每个上下文词,并引入词性相关性加权矩阵进行建模;包括:
针对训练语料库Corp,采用改进NS算法的训练函数如下:
其中,p(word(t+i)|u)表示基于采样词语u的word(t+i)后验概率,QCSG为最大似然概率;将PWE的词性相关度加权矩阵Φi加入输出层后,矩阵中基于词性的加权因子与词语定向嵌入的位置相关,通过式12计算得到p(word(t+i)|u):
其中,σ为Sigmod函数:v(word)表示词语word的向量;Oi(u)表示预测矩阵Oi中以u为索引的预测向量;
将式11QCSG的花括号下式子记为L1,作为Structured Skip gram-POS的目标函数进行梯度推导,将式12代入式11,L1表示为式13:
L1={(Lword(t)(u)×log[σ(Φi(zt+i,zt)v(word(t+i))·Oi(u))]+(1-Lword(t)(u))×log[1-σ(Φi(zt+i,zt)v(word(t+i))·Oi(u))]} (式13)
针对式13目标函数中的变量参数Φi(zt+i,zt)、θu(i)和v(word(t+i)) ,采用随机梯度上升法对L1的三个变量进行梯度求解,然后不断地优化更新,从而实现对词向量和词性相关加权矩阵进行联合优化;
由此,通过CWP模型和SSGP模型,使用随机梯度下降算法联合学习word embedding 和词性相关性加权矩阵,实现对词向量和词性相关加权矩阵进行联合优化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工商大学,未经北京工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710791297.1/1.html,转载请声明来源钻瓜专利网。