[发明专利]一种基于字词联合训练的中文词向量生成方法有效
申请号: | 201710435279.X | 申请日: | 2017-06-12 |
公开(公告)号: | CN107273355B | 公开(公告)日: | 2020-07-14 |
发明(设计)人: | 张宪超;刘世柯;梁文新;刘馨月 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/284 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 温福雪;侯明远 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于字词联合训练的中文词向量生成方法,属于自然语言处理技术领域。将词中的汉字信息作为重要特征,结合上下文词和汉字,联合训练中文的词向量表示。在基于词本身的词向量模型的基础上,我们通过引入词本身的组成汉字信息,在基于上下文词预测目标词的同时,基于上下文字预测目标词。将基于词本身的模型字词联合训练模型分别应用,比较两个模型的训练词向量的有效性和鲁棒性,发现字词联合训练模型生成的中文词向量更符合中文语义特性,同时鲁棒性也更好。本发明提供了中文词向量生成的一种新方法,为中文词向量的生成和应用工作提供了一种新的解决方案。 | ||
搜索关键词: | 一种 基于 字词 联合 训练 文词 向量 生成 方法 | ||
【主权项】:
一种基于字词联合训练的中文词向量生成方法,其特征在于,将中文词中的汉字信息作为重要特征,结合上下文词和汉字联合训练中文词向量表示,步骤如下:(1)中文文本数据处理阶段词表示向量的生成基于语料库,首先对语料库进行分词处理;(2)中文词表示向量生成阶段对于中文来说,一个词由几个汉字组成,词义和组成它的汉字有关;本方法利用汉字信息来完善中文词嵌入模型,学习中文词表示向量;在初始阶段,随机生成词语、汉字的向量表示w,c,维度大小为100,每个维度值是一个0到1之间的随机小数;2.1)基于上下文词预测目标词对于给定句子D={x1,…,xM},M表示句子长度,xj表示句子中的第j个词语,通过一个固定窗口内的上下文词来预测目标词,窗口大小为K,考虑到中文特性,将词向量和组成词的内部字向量的向量加和求平均作为目标词w的上下文词的向量表示;对于每一个汉字,根据位置不同,都会有三个不同的向量表示(cB,cM,cE),分别表示他们位于词语当中的开头、中间和结尾;上下文词的向量表示公式如下:xw=12K(wj+1NjΣk=1Nj(c1B+Σk=2Nj-1ckM+cNjE))]]>where j=w‑K,…w‑1,w+1,…w+K其中,wj表示xj的本身词向量,Nj表示xj中的汉字个数,ck表示词xj中第k个汉字的向量表示;通过上面的公式得到上下文词的向量表示xw,由此预测目标词xi,其目标是最大化目标词在上下文词上的条件概率函数:L(D)=1MΣi=KM-KlogP(xi|xw)]]>其中M表示句子长度,K表示窗口大小;2.2)基于上下文字预测目标词对于句子D={x1,…,xM},首先遍历该句子,查表将每个词中的汉字映射成向量,除去目标词;通过一个固定窗口内的上下文词来预测目标词,将上下文词中内部字的向量表示加和平均值作为上下文字的向量表示;对于每一个汉字,根据位置不同,都会有三个不同的向量表示(cB,cM,cE),分别表示他们位于词语当中的开头、中间和结尾;上下文字的向量表示公式如下:cw=12KΣj1NjΣk=1Nj(c1B+Σk=2Nj-1ckM+cNjE)]]>where j=w‑K,…w‑1,w+1,…w+K通过上式得到上下文字的向量表示cw,由此预测目标词xi,其目标是最大化目标词在上下文字上的条件概率函数:L(D)=1MΣi=KM-KlogP(xi|cw)]]>其中,M表示句子长度,K表示窗口大小;2.3)基于字词联合预测目标词对于句子D={x1,…,xM},将基于上下文词来预测目标词的目标函数同基于上下文字起来预测目标词的目标函数结合来,联合训练字和词;在优化上下文对目标词的条件概率的同时,优化上下文词中各个汉字对目标词的条件概率:L(θ)=1MΣw∈W[(1-β)logP(w|Context(w))+βlogP(w|Circum(w))]]]>其中,M表示句子长度,W表示词语字典,w表示目标词,即上文中的xi,Context(w)表示w的上下文词语,即上文中的xw,Circum(w)表示w的上下文中的汉字,即上文中的cw,β是一个0到1之间的小数,表示基于汉字建模的比例;2.4)迭代更新通过负采样方法来优化计算,计算条件概率:P(w|Context(w))=Πu∈{w}∪NEG(w)[σ(xwTθu)]Lw(u)·[1-σ(xwTθu)]1-Lw(u)]]>P(w|Circum(w))=Πu∈{w}∪NEG(w)[σ(cwTθu)]Lw(u)·[1-σ(cwTθu)]1-Lw(u)]]>上式中,NEG(w)表示负采样集,负采样大小设为5,Lw(u)是一个采样u的标签,当u是目标词w时,Lw(u)=1,否则Lw(u)=0,xw是目标词w上下文词的向量表示,cw是目标词w上下文字的向量表示,θu是参数的向量表示;最后采用随机梯度下降算法来求解目标函数,具体的更新表达式为:v(w~):=v(w~)+ηΣu∈{w}∪NEG(w)∂L(w,u)∂xw,w~∈Context(w)]]>v(c~):=v(c~)+ηΣu∈{w}∪NEG(w)∂L(w,u)∂cw,c~∈Circum(w)]]>模型迭代训练结束后,参数词向量表示集w就是我们模型生成的中文词向量表示。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710435279.X/,转载请声明来源钻瓜专利网。