[发明专利]联合词性与词序的相关因子训练的word2vec改进方法有效
申请号: | 201710791297.1 | 申请日: | 2017-09-05 |
公开(公告)号: | CN107526834B | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 于重重;曹帅;潘博;张青川 | 申请(专利权)人: | 北京工商大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30;G06K9/62 |
代理公司: | 北京万象新悦知识产权代理有限公司 11360 | 代理人: | 黄凤茹 |
地址: | 100048 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 联合 词性 词序 相关 因子 训练 word2vec 改进 方法 | ||
本发明公布了一种联合词性与词序的相关因子训练的word2vec改进方法,提出Structured word2vec on POS模型,包括CWindow‑POS(CWP)模型和Structured Skip gram‑POS(SSGP)模型,两个模型均将词性标注信息与词语顺序作为影响因素联合优化,利用词性关联信息对上下文窗口内词语之间的固有句法关系进行建模;通过词性关联权重对上下文词语序列进行加权计算,再按词语位置顺序进行向量内积计算,使用随机梯度下降(SGD)算法联合学习相关权重和word embedding。本发明将词语按其位置顺序定向嵌入,实现了对词向量和词性相关加权矩阵进行的联合优化;在词语类比任务、词语相似性任务与定性分析都具有高效性。
技术领域
本发明属于机器学习技术领域,涉及word2vec方法,尤其涉及一种联合词性与词序的相关因子训练的word2vec改进方法,该方法提出Structured word2vec on POS模型,不仅可以感知词语位置顺序,将词语按其位置顺序定向嵌入,而且利用词性关联信息来建立上下文窗口内词语之间的固有句法关系;实现对词向量和词性相关加权矩阵进行联合优化。
背景技术
词性是自然语言处理的基本要素,词语顺序包含了所传达的语义与语法信息,它们都是自然语言中的关键信息。在word embedding模型中如何有效地将两者结合起来,是目前研究的重点。语言的语义向量空间模型用实值向量表示每个词语,而词向量可以作为许多应用中的特征,例如文献分类,自动问答,命名实体识别和形态相关词解析。词向量的表示效果通常用文献[1]记载的Mikolov等人的词语类比任务进行评估:通过检查词语向量之间的标量距离,检测出词语向量空间中更精细的结构关系。例如,类比“king is toqueen as man is towoman”应该通过向量方程式king-queen=man-woman编码在向量空间中。文献[2]指出这种评价方案有利于产生有意义维度的模型,从而捕获分布式表示的多聚类概念。因此,研究人员使用词语类比任务作为词语向量的主要评估方法。
随着深度神经网络学习的发展,文献[3]记载的Bengio提出的神经网络语言模型(Neural Network Language Model,NNLM)逐渐受到研究者们的关注与重视。文献[4]和[5]记载了将其应用于自然语言处理领域:如循环神经网络语言模型(Recurrent NeuralNetworks language model,RNNLM)。NNLM与RNNLM模型的缺陷在于结构过于复杂,其中非线性的隐层带来大量的计算。针对这个问题,文献[6]中,Mikolov提出了word2vec的两种简化的线性模型: Continuous Bag-of-Words Model(CBOW)和Continuous Skip-gram(CSG)。在CBOW与CSG的线性结构基础上,文献[7]中,Kavukcuoglu等人提出了相似模型vLBL和ivLBL。文献[8]中, Levy等人提出基于PPMI度量的explicit word embeddings模型。文献[9]中,Jeffrey等人提出了一种基于全局信息的词语表示模型GloVe,其将局部上下文窗口与矩阵分解的方法有效结合起来,建立word-word同窗共现计数矩阵,从而利用矩阵进行全局优化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工商大学,未经北京工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710791297.1/2.html,转载请声明来源钻瓜专利网。