[发明专利]一种词向量训练方法和服务器有效

申请号：	201810299633.5	申请日：	2018-04-04
公开（公告）号：	CN110348001B	公开（公告）日：	2022-11-25
发明（设计）人：	宋彦;史树明;张海松;李菁;俞栋;张潼	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06F40/284	分类号：	G06F40/284;G06F40/211;G06F40/289;G06F40/30;G06K9/62
代理公司：	深圳市深佳知识产权代理事务所(普通合伙) 44285	代理人：	王仲凯
地址：	518057 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种向量训练方法服务器
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种词向量训练方法，其特征在于，包括：

根据训练样本文本中的单词获取对应的输入词向量；

根据所述训练样本文本中与所述单词对应的上下文词语获取对应的原始输出词向量；

根据所述上下文词语出现在所述单词的上文或者下文生成方向向量，并通过所述原始输出词向量和所述方向向量获取到目标输出词向量，所述方向向量用于指示所述上下文词语出现在所述单词的上文或者下文，所述目标输出词向量包括：所述原始输出词向量和所述方向向量，所述目标输出词向量携带有用于指示所述上下文词语相对于所述单词的位置方向的方向信息；

根据所述输入词向量和所述方向向量获取交互函数计算结果，并根据所述交互函数计算结果对所述输入词向量和所述方向向量进行迭代更新；

根据所述输入词向量和所述原始输出词向量获取条件概率计算结果，并根据所述条件概率计算结果对所述输入词向量和所述原始输出词向量进行迭代更新；

根据所述交互函数计算结果和所述条件概率计算结果对所述词向量学习模型的最优目标进行估计。

2.根据权利要求1所述的方法，其特征在于，所述根据所述输入词向量和所述方向向量获取交互函数计算结果，包括：

通过如下方式计算所述输入词向量和所述方向向量之间的交互函数，其中，

其中，所述g(ω_t+i,ω_t)表示所述交互函数计算结果，所述δ_ωt+i表示所述上下文词语为ω_t+i时的方向向量，所述v_ωt表示所述单词为ω_t时的输入向量，所述V表示语料库中的所有词语集合。

3.根据权利要求1所述的方法，其特征在于，所述根据所述交互函数计算结果对所述输入词向量和所述方向向量进行迭代更新，包括：

通过如下方式对所述输入词向量和所述方向向量进行迭代更新，其中，

其中，所述表示更新后的所述单词为ω_t时的输入向量，所述表示更新前的输入向量，所述γ表示学习率，所述δ_ωt+i表示所述上下文词语为ω_t+i时的方向向量，所述v_ωt表示所述单词为ω_t时的输入向量，所述σ(v_ωt^Tδ_ωt+i)表示所述上下文词语相对于所述单词的位置方向预测值，所述D表示所述上下文词语相对于所述单词的位置方向标记值，所述表示更新后的所述上下文词语为ω_t+i时的方向向量，所述表示更新前的所述上下文词语为ω_t+i时的方向向量。

4.根据权利要求3所述的方法，其特征在于，所述位置方向标记值D满足如下条件：

其中，当i＜0时，表示所述上下文词语相对于所述单词的位置方向为上文，当i＞0时，表示所述上下文词语相对于所述单词的位置方向为下文。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述根据所述交互函数计算结果和所述条件概率计算结果对所述词向量学习模型的最优目标进行估计：

通过如下方式计算全局对数最大似然估计f(ω_t+i,ω_t)，其中，

f(ω_t+i,ω_t)＝p(ω_t+iω_t)+g(ω_t+i,ω_t)，

其中，所述g(ω_t+i,ω_t)表示所述交互函数计算结果，所述p(ω_t+iω_t)表示所述条件概率计算结果；

通过如下方式计算所述单词到所述上下文词语的概率的联合对数似然估计L_SG，其中，

其中，所述V表示语料库中的所有词语集合，所述上下文词语为ω_t+i，所述单词为ω_t，所述c表示上下文窗口大小。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于腾讯科技（深圳）有限公司，未经腾讯科技（深圳）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810299633.5/1.html，转载请声明来源钻瓜专利网。