[发明专利]一种多语义监督的词向量训练方法及装置有效

申请号：	201811083181.3	申请日：	2018-09-17
公开（公告）号：	CN109241535B	公开（公告）日：	2019-08-27
发明（设计）人：	李健铨	申请（专利权）人：	北京神州泰岳软件股份有限公司
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	北京弘权知识产权代理事务所(普通合伙) 11363	代理人：	逯长明;许伟群
地址：	100089 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	词向量语义中心词向量加权损失函数语义向量迭代更新模型训练训练过程监督求和词语靠拢申请
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种多语义监督的词向量训练方法，其特征在于，包括：

根据中心词的每个语义所包含义原的义原向量，生成每个语义的加权语义向量；

对中心词所有语义的所述加权语义向量进行加权求和，生成引导向量；

构造从所述引导向量到中心词的词向量之间的距离损失函数；

根据所述距离损失函数监督中心词的词向量在词向量模型训练时的迭代更新方向；

所述对中心词所有语义的所述加权语义向量进行加权求和，生成引导向量，包括：

根据上下词的词向量生成中心词的语境向量；

分别获取所述语境向量与中心词的每个所述加权语义向量的关注系数；

根据所述关注系数，对中心词的所述加权语义向量进行加权求和，生成所述引导向量。

2.根据权利要求1所述的方法，其特征在于，所述根据中心词的每个语义所包含义原的义原向量，生成每个语义的加权语义向量，包括：

根据中心词的每个语义的义原数量，对每个语义的设置义原权重；

根据所述义原权重，对每个语义中的所述义原向量进行加权求和，生成每个语义的所述加权语义向量。

3.根据权利要求1所述的方法，其特征在于，所述根据上下词的词向量生成中心词的语境向量，包括：

根据预设的窗口大小确定中心词的预设数量的上下词；

对上下词的词向量加权求和，生成所述语境向量。

4.根据权利要求1所述的方法，其特征在于，所述构造从引导向量到中心词的词向量之间的距离损失函数，包括：

获取中心词的词向量与所述引导向量的余弦距离，将所述余弦距离作为所述距离损失函数。

5.根据权利要求1所述的方法，其特征在于，所述根据距离损失函数监督中心词的词向量在词向量模型训练时的迭代更新方向之后，还包括：

在词向量模型完成预设次数的迭代之后，提取词向量模型产生的词向量和义原向量；

将提取到的词向量和义原向量作为词向量模型继续训练的输入参数；

当词向量模型继续训练时，固定义原向量的值，使词向量模型在迭代更新时仅更新词向量的值。

6.根据权利要求1或3所述的方法，其特征在于，还包括：

根据所述关注系数，对中心词的语义向量进行加权求和，生成中心词的输出向量；

其中，所述词向量模型以上下词的词向量作为输入，以所述输出向量作为输出。

7.根据权利要求1所述的方法，其特征在于，所述根据距离损失函数监督中心词的词向量在词向量模型训练时的迭代更新方向，包括：

获取所述距离损失函数对词向量模型中每个连接权重的偏导；

根据所述偏导更新所述连接权重；

在下一轮迭代中，使用更新后的所述连接权重更新中心词的词向量。

8.根据权利要求2所述的方法，其特征在于，所述义原权重为语义包含的义原数量的倒数。

9.一种多语义监督的词向量训练装置，其特征在于，包括：

加权语义向量表达模块，用于根据中心词的每个语义所包含义原的义原向量，生成每个语义的加权语义向量；

引导向量表达模块，用于对中心词所有语义的所述加权语义向量进行加权求和，生成引导向量；

距离损失构造模块，用于构造从所述引导向量到中心词的词向量之间的距离损失函数；

监督模块，用于根据所述距离损失函数监督中心词的词向量在词向量模型训练时的迭代更新方向；

所述引导向量表达模块，用于对中心词所有语义的所述加权语义向量进行加权求和，生成引导向量，包括：

根据上下词的词向量生成中心词的语境向量；

分别获取所述语境向量与中心词的每个所述加权语义向量的关注系数；

根据所述关注系数，对中心词的所述加权语义向量进行加权求和，生成所述引导向量。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京神州泰岳软件股份有限公司，未经北京神州泰岳软件股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811083181.3/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于文本AI学习的考题自动生成方法和装置
下一篇：信息处理方法及信息处理装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种多语义监督的词向量训练方法及装置有效

专利文献下载