[发明专利]词嵌入模型的训练方法及装置有效
申请号: | 201811083302.4 | 申请日: | 2018-09-17 |
公开(公告)号: | CN109190126B | 公开(公告)日: | 2023-08-15 |
发明(设计)人: | 李健铨;刘小康;陈玮 | 申请(专利权)人: | 北京神州泰岳软件股份有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/284;G06F40/247;G06F16/36 |
代理公司: | 北京弘权知识产权代理有限公司 11363 | 代理人: | 逯长明;许伟群 |
地址: | 100080 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 嵌入 模型 训练 方法 装置 | ||
1.一种词嵌入模型的训练方法,其特征在于,包括以下步骤:
利用词嵌入矩阵,将训练样本的输入词向量化表示为第一向量;
根据所述第一向量得到预测词;
利用所述预测词,以及所述输入词所对应的真实词,更新所述输入词在词嵌入矩阵中所对应的参数;
获取目标词的近义词集,所述目标词包括所述输入词或所述真实词;
从所述近义词集中确定一个榜样词;
更新所述目标词在词嵌入矩阵中所对应的参数,以缩短所述目标词与所述榜样词之间的距离。
2.根据权利要求1所述的词嵌入模型的训练方法,其特征在于,从所述近义词集中确定一个榜样词的步骤,包括:
从所述近义词集中确定子集,所述子集中的每一个近义词与所述目标词的反义词分别处于所述目标词的两侧;
从所述子集中确定一个榜样词。
3.根据权利要求1所述的词嵌入模型的训练方法,其特征在于,所述词嵌入模型的目标函数L(H)为:
L(H)=L+α·J(wt,wi),
其中,L为第一目标函数,表示CBOW模型或Skip模型的目标函数;
wt表示目标词,wi表示选自所述近义词集的榜样词;
J(wt,wi)为第二目标函数,表示榜样词wi与所述目标词wt之间的距离;
α表示影响因子。
4.根据权利要求3所述的词嵌入模型的训练方法,其特征在于,
5.根据权利要求4所述的词嵌入模型的训练方法,其特征在于,更新所述目标词在词嵌入矩阵中所对应的参数的步骤,包括:
wtj(new)=wtj+η·Gradient(wtj),
其中,wtj(new)表示目标词wt的第j维在更新后的值;
η表示第二学习率;
Gradient(wtj)表示目标词wt的第j维的更新梯度;
表示目标词wt与榜样词wi之间的距离值,对目标词wt的第j维的偏导数;
wtj表示目标词wt的第j维在更新之前的值;
wij表示榜样词的第j维的值。
6.根据权利要求5所述的词嵌入模型的训练方法,其特征在于,第二学习率η通过以下方式得到:
η=α·μ,
其中,α表示影响因子;
μ表示第一学习率;
μ0表示第一学习率预设初始值;
train_words表示训练语料的总词数;
word_ca表示当前已经训练过的输入词的数量;
iter表示当前训练的迭代轮次。
7.根据权利要求5所述的词嵌入模型的训练方法,其特征在于,当更新梯度Gradient(wtj)的绝对值>max_Gradient时,取所述Gradient(wtj)=max_Gradient;
其中,max_Gradient为梯度最大值;
starting_mG表示梯度最大值的预设初始值;
train_words表示训练语料的总词数;
word_ca表示当前已经训练过的输入词的数量;
iter表示当前训练的迭代轮次。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京神州泰岳软件股份有限公司,未经北京神州泰岳软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811083302.4/1.html,转载请声明来源钻瓜专利网。