[发明专利]词嵌入模型的训练方法及装置有效
申请号: | 201811083302.4 | 申请日: | 2018-09-17 |
公开(公告)号: | CN109190126B | 公开(公告)日: | 2023-08-15 |
发明(设计)人: | 李健铨;刘小康;陈玮 | 申请(专利权)人: | 北京神州泰岳软件股份有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/284;G06F40/247;G06F16/36 |
代理公司: | 北京弘权知识产权代理有限公司 11363 | 代理人: | 逯长明;许伟群 |
地址: | 100080 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 嵌入 模型 训练 方法 装置 | ||
本申请实施例公开一种词嵌入模型的训练方法及装置,该方法包括:利用词嵌入矩阵,将训练样本的输入词向量化表示为第一向量;根据所述第一向量得到预测词;利用所述预测词,以及所述输入词所对应的真实词,更新输入词在词嵌入矩阵中所对应的参数;获取目标词的近义词集,所述目标词包括所述输入词或所述真实词;从所述近义词集中确定一个榜样词;更新目标词在词嵌入矩阵中所对应的参数,以缩短所述目标词与所述榜样词之间的距离。采用上述技术方案中的训练方法所训练得到的词嵌入模型,减轻了词嵌入的极性问题,同时不会导致整个词向量空间紊乱,将这样的词嵌入应用到文本语义匹配、文本分类等自然语言处理任务中,可以使匹配或分类的准确率更高。
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种词嵌入模型的训练方法及装置。
背景技术
在自然语言处理(Natural Language Processing,NLP)领域,词的表示方法有独热表示(one-hot representation)和分布式表示(distributed representation)两大类,其中,分布式表示是基于分布假说(Distributional Hypothesis),它的核心思想由两部分组成:一、选择一种方式描述上下文;二、选择一种模型来刻画某个词(即中心词)与其上下文之间的关系。根据建模的不同,词的分布式表示主要可以分为三类:基于矩阵的分布表示、基于聚类的分布表示和基于神经网络的分布表示。其中,基于神经网络的分布式表示一般也被称为词嵌入(word embedding),主要是通过神经网络技术对中心词的上下文,以及上下文与中心词之间的关系进行建模。词嵌入是一种低维实数向量,例如[0.792,-0.177,-0.107,0.109,-0.542,…],其维度可以是50维、100维等。
连续词袋模型(Continous Bag of Words Model,CBOW)和Skip-gram模型是Mikolov 等人提出的神经网络语言模型,可以用来训练以得到语料库中每一个词的词嵌入。CBOW是统计语言模型的一种,请参考图1,其主要思想是根据中心词(w(t))的上下文,即中心词前面的C个词(例如w(t-2)、w(t-1)等)以及后面的C个词(例如w(t+1)、w(t+2) 等),来计算中心词的概率。与CBOW相反,请参考图2,Skip-Gram模型的主要思想是根据中心词(w(t))来分别计算它前后的词(例如w(t-2)、w(t-1)、w(t+1)、w(t+2) 等)的概率。
但是,采用CBOW、Skip-gram模型等训练出来的词嵌入在表示能力上还存在缺陷,极性问题较为严重。具体来说,当计算两个词的相似度时,通常是将两个词各自的词嵌入代入到欧式距离或者余弦距离的公式中来计算。但是无论是采用欧式距离还是余弦距离来表示两个词的相似度,经常会出现这样的错误——语义相反的词之间的距离反而比语义一致的词之间的距离更近。例如“开心”与“快乐”的语义一致,利用CBOW、Skip-gram模型等训练得到的词嵌入来计算二者的语义相似度P1;“开心”与“不开心”的语义相反,同样利用利用CBOW、 Skip-gram模型等训练得到的词嵌入来计算二者的语义相似度P2。理应P1>P2,但实际计算出来却可能是P1<P2。
由于采用CBOW、Skip-gram模型等训练出来的词嵌入存在这样的极性问题,进而导致进行文本语义匹配、文本分类等处理的时候容易出错,匹配到完全不同的句子,或者将语义相反的两个文本分类到同一个类别中,这是本领域技术人员亟待解决的问题。
发明内容
为解决上述技术问题,本申请提供一种新的词嵌入模型的训练方法,在现有的训练方法的基础上,局部调整某些词的位置,使这些词与其近义词之间的距离缩小。通过这样的方法训练得到的词嵌入矩阵,能够更好地区分近义词和反义词,从而有效地减轻词嵌入的极性问题。
第一方面,本申请提供一种词嵌入模型的训练方法,包括以下步骤:
利用词嵌入矩阵,将训练样本的输入词向量化表示为第一向量;
根据所述第一向量得到预测词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京神州泰岳软件股份有限公司,未经北京神州泰岳软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811083302.4/2.html,转载请声明来源钻瓜专利网。