[发明专利]一种词向量嵌入方法及装置有效
申请号: | 201711386882.X | 申请日: | 2017-12-20 |
公开(公告)号: | CN109948140B | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 张鹏 | 申请(专利权)人: | 普天信息技术有限公司 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/30 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹;李相雨 |
地址: | 100080 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 向量 嵌入 方法 装置 | ||
本发明实施例提供一种词向量嵌入方法及装置。所述方法包括:获取目标词所在句子中与预先训练的词向量库相匹配的每个词语的参考词向量;根据所述参考词向量,确定所述目标词的初始词向量;根据所述初始词向量和向量嵌入模型W2V训练所述目标词对应的目标语料集,确定所述目标词的嵌入词向量。本发明实施例提供的词向量嵌入方法,在初始化阶段就赋予目标词先验知识,即使语料集较小或者目标词在预训练语料集中未出现的情况下,也能通过向量嵌入模型训练出合理的目标词向量,使目标词的嵌入向量更接近目标词的真实语义,解决了小语料集的词向量嵌入不合理的问题,提高了词向量嵌入的准确率,进而提高了向量嵌入模型的效率。
技术领域
本发明实施例涉及自然语言处理技术领域,具体涉及一种词向量嵌入方法及装置。
背景技术
向量嵌入(Word2Vec,W2V)是一种自然语言处理(Natural Language Processing,NLP)方法,W2V将文本中所有的词向量化,这样就可以定量的度量词与词之间的关系,挖掘词之间的联系。目前通用的向量嵌入工具主要包括连续词袋模型(Continuous Bag-of-Words Model,CBOW)和Skip-Gram模型。CBOW模型的训练输入是目标词的上下文相关的词对应的词向量,输出目标词的词向量。Skip-Gram模型和CBOW的思路相反,假设相似的单词拥有相似的语境,根据当前单词预测语境,输入是目标词的一个词向量,输出是目标词对应的上下文词向量。
Skip-Gram首先对句子中的目标词的词向量进行随机初始化,而后Skip-Gram去寻找参数集合θ来最大化如下条件概率:
其中vc和vw分别是文本c和词w的列向量,维度为d,C是语料库中所有语境中的词构成的集合,即,词典。c’是C中文本,参数θ是vc和vw中每一维度的具体取值,p(c|w)表示词w在文本c中出现的概率,通过训练得到词的向量表示vw能够使得条件概率p(c|w)最大化,则vw是w的较好的向量表示。Skip-Gram通过最大化条件概率,使得词和语境之间的对应关系最大化,进而满足了基本假设:相似的单词拥有相似的语境,而满足条件概率最大的词向量,也就成为了该词语义的合理表示。
Skip-Gram是在拥有足够大的语料库基础上进行训练的,目标词在语料库中出现的次数较多或者目标词出现的语境与其语义相关性较大,因而Skip-Gram在理论上能够获得足够好的嵌入向量。
然而对于小规模公司或偏僻领域,语料库较小,目标词在语料库中出现的次数较少,甚至未出现在语料库中,使用Skip-Gram随机初始化词向量进行训练,导致词向量嵌入不合理,影响了Skip-Gram模型的性能。
发明内容
针对现有技术中的缺陷,本发明实施例提供了一种词向量嵌入方法及装置。
第一方面,本发明实施例提供一种词向量嵌入方法,包括:
获取目标词所在句子中与预先训练的词向量库相匹配的每个词语的参考词向量;
根据所述参考词向量,确定所述目标词的初始词向量;
根据所述初始词向量和向量嵌入模型W2V训练所述目标词对应的目标语料集,确定所述目标词的嵌入词向量。
第二方面,本发明实施例提供一种词向量嵌入装置,包括:
获取模块,用于获取目标词所在句子中与预先训练的词向量库相匹配的每个词语的参考词向量;
初始化模块,用于根据所述参考词向量,确定所述目标词的初始词向量;
训练模块,用于根据所述初始词向量和向量嵌入模型W2V训练所述目标词对应的目标语料集,确定所述目标词的嵌入词向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于普天信息技术有限公司,未经普天信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711386882.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种语义倾向分析方法及系统
- 下一篇:一种提取特征词的方法和装置