[发明专利]词向量更新方法和装置有效
申请号: | 201810144166.9 | 申请日: | 2018-02-12 |
公开(公告)号: | CN110162766B | 公开(公告)日: | 2023-03-24 |
发明(设计)人: | 宋彦 | 申请(专利权)人: | 深圳市腾讯计算机系统有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/247;G06F16/35 |
代理公司: | 深圳市联鼎知识产权代理有限公司 44232 | 代理人: | 刘抗美 |
地址: | 518000 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 向量 更新 方法 装置 | ||
1.一种词向量更新方法,包括:
获取训练原词向量时所生成的第一模型和第二模型,所述第一模型用于根据输入词预测上下文,所述第二模型用于根据上下文预测目标词;
将来自目标语料的语料单元输入所述第一模型,并将所述第一模型的输出输入所述第二模型,获取使所述第二模型输出所述语料单元时由所述第一模型和所述第二模型产生的损耗;以及
根据所述损耗来更新所述第一模型和所述第二模型。
2.根据权利要求1所述的方法,其特征在于,所述的获取使所述第二模型输出所述语料单元时由所述第一模型和所述第二模型产生的损耗,包括:
对于所述语料单元及所述语料单元在所述目标语料中的语料上下文,获取所述第一模型输出所述语料上下文和预设中间变量时下的第一损耗;以及
获取所述语料上下文和所述中间变量通过所述第二模型输出所述语料单元时的第二损耗。
3.根据权利要求2所述的方法,其特征在于,所述预设中间变量包括中间词,所述的获取所述第一模型输出所述语料上下文和预设中间变量时的第一损耗,包括:
获取将所述语料单元输入所述第一模型时所述中间词的输出概率;
获取将所述语料单元输入所述第一模型时所述语料上下文的输出概率;
获取所述中间词的输出概率与所述语料上下文的输出概率之间的差异,以得到所述第一损耗。
4.根据权利要求2所述的方法,其特征在于,所述预设中间变量包括中间词,所述的获取所述语料上下文和所述中间变量通过所述第二模型输出所述语料单元时的第二损耗,包括:
将所述中间词加入所述语料上下文以获取更新上下文;
获取将所述更新上下文输入所述第二模型时所述语料单元的输出概率,以得到所述第二损耗。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述的根据所述损耗来更新所述第一模型和所述第二模型,包括:
基于所述第一模型产生的第一损耗和所述第二模型产生的第二损耗来获取组合损耗;
获取所述组合损耗在所述第一模型上的第一梯度和所述组合损耗在所述第二模型上的第二梯度;以及
基于所述第一梯度来更新所述第一模型的参数,基于所述第二梯度来更新所述第二模型的参数。
6.根据权利要求5所述的方法,其特征在于,所述的基于所述第一梯度来更新所述第一模型的参数,基于所述第二梯度来更新所述第二模型的参数,包括:
基于所述第一梯度和为所述第一梯度分配的第一权重来更新所述第一模型的参数;以及
基于所述第二梯度和为所述第二梯度分配的第二权重来更新所述第二模型的参数;
其中,在基于来自目标语料的各个语料单元更新所述第一模型和所述第二模型的过程中,使所述第一权重和所述第二权重递减。
7.根据权利要求1所述的方法,其特征在于,所述的获取训练原词向量时所生成的第一模型和第二模型,包括:
获取根据源语料生成第一词向量时所生成的词到上下文SG模型;以及
获取根据源语料生成第二词向量时所生成的上下文到词CB模型,
其中,所述源语料不同于所述目标语料或者所述源语料包括所述目标语料。
8.一种词向量更新方法,包括:
获取训练方向相反的第一模型和第二模型;
将待训练的目标语料输入所述第一模型,并将所述第一模型的输出输入所述第二模型,获取使所述第二模型输出目标语料时分别由所述第一模型和所述第二模型产生的损耗;以及
根据所述损耗来更新所述第一模型和所述第二模型。
9.根据权利要求8所述的方法,其特征在于,所述根据所述损耗来更新所述第一模型和所述第二模型的步骤包括:
更新所述第一模型,使来自源语料的中间词的输出概率与所述目标语料的上下文的输出概率趋于相等;以及
更新所述第二模型,使所述目标语料的输出概率接近于1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市腾讯计算机系统有限公司,未经深圳市腾讯计算机系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810144166.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于摘要方式的机器辅助阅读审计方法及系统
- 下一篇:文本纠错的方法和装置