[发明专利]词向量构建方法、装置、介质及电子设备在审
申请号: | 201910462774.9 | 申请日: | 2019-05-30 |
公开(公告)号: | CN110321552A | 公开(公告)日: | 2019-10-11 |
发明(设计)人: | 崔勇;杨光;杨雪松 | 申请(专利权)人: | 泰康保险集团股份有限公司;泰康资产管理有限责任公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
地址: | 100030 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词向量 构建 电子设备 模型词典 语义信息 增量训练 初始化 有效地 语料 文本 | ||
1.一种词向量构建方法,所述方法用于构建未包含在训练好的Word2Vec模型词典中的新词的词向量,所述方法包括:
在包含所述新词的相关语料文本中,获得在所述新词的上下文中出现的相关词;
根据所述相关词的词向量构建所述新词的词向量。
2.根据权利要求1所述的方法,其特征在于,在包含所述新词的相关语料文本中,获得在所述新词的上下文中出现的相关词包括:
对所述相关语料文本进行分词操作,得到词序列;
在所述词序列中,获取在所述新词之前和之后出现的预定数量的词作为所述相关词。
3.根据权利要求1或2所述的方法,其特征在于,根据所述相关词的词向量构建所述新词的词向量包括:
在训练好的Word2Vec模型词典中查找所述相关词对应的词向量,将找到对应的词向量的相关词作为实际关联词加入所述新词的上下文相关词列表;
获得所述上下文相关词列表中的实际关联词对应的词向量,根据所获得的实际关联词对应的词向量计算所述新词的词向量。
4.根据权利要求3所述的方法,其特征在于,根据所获得的实际关联词对应的词向量计算所述新词的词向量包括:
将所获得的实际关联词对应的词向量的平均值作为所述新词的词向量。
5.根据权利要求3所述的方法,其特征在于,根据所获得的实际关联词对应的词向量计算所述新词的词向量包括:
记录所述实际关联词在所述新词的上下文中出现的次数;以及,
根据下式计算所述新词的词向量:
其中,WVi表示新词i的词向量,Listi表示新词i的上下文相关词列表,WVj表示新词i的实际关联词j在训练好的Word2Vec模型词典中对应的词向量,wj表示实际关联词j在新词i的上下文中出现的次数与Listi中所有实际关联词在新词i的上下文中出现的次数总和的比值。
6.根据权利要求3所述的方法,其特征在于,根据所获得的实际关联词对应的词向量计算所述新词的词向量包括:
记录所述实际关联词与所述新词的平均距离;以及,
根据下式计算所述新词的词向量:
其中,WVi表示新词i的词向量,Listi表示新词i的上下文相关词列表,WVj表示新词i的实际关联词j在训练好的Word2Vec模型词典中对应的词向量,vj表示实际关联词j和新词i的平均距离的倒数与Listi中所有实际关联词和新词i的平均距离的倒数之和的比值。
7.一种Word2Vec模型词典的更新方法,包括:
获取待生成词向量的新词;
根据权利要求1-6中任一项所述的词向量构建方法构建所述新词的词向量;
将所述新词和所述新词的词向量加入所述Word2Vec模型词典。
8.一种词向量构建装置,所述装置用于构建未包含在训练好的Word2Vec模型中的新词的词向量,所述装置包括:
相关词获取模块,用于在包含所述新词的相关语料文本中,获得在所述新词的上下文中出现的相关词;
词向量构建模块,用于根据所述相关词的词向量构建所述新词的词向量。
9.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个计算机程序,当所述一个或多个计算机程序被所述一个或多个处理器执行时,使得所述电子设备实现如权利要求1至7中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于泰康保险集团股份有限公司;泰康资产管理有限责任公司,未经泰康保险集团股份有限公司;泰康资产管理有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910462774.9/1.html,转载请声明来源钻瓜专利网。