[发明专利]联合词性与词序的相关因子训练的word2vec改进方法有效

专利信息
申请号: 201710791297.1 申请日: 2017-09-05
公开(公告)号: CN107526834B 公开(公告)日: 2020-10-23
发明(设计)人: 于重重;曹帅;潘博;张青川 申请(专利权)人: 北京工商大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/30;G06K9/62
代理公司: 北京万象新悦知识产权代理有限公司 11360 代理人: 黄凤茹
地址: 100048 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 联合 词性 词序 相关 因子 训练 word2vec 改进 方法
【说明书】:

发明公布了一种联合词性与词序的相关因子训练的word2vec改进方法,提出Structured word2vec on POS模型,包括CWindow‑POS(CWP)模型和Structured Skip gram‑POS(SSGP)模型,两个模型均将词性标注信息与词语顺序作为影响因素联合优化,利用词性关联信息对上下文窗口内词语之间的固有句法关系进行建模;通过词性关联权重对上下文词语序列进行加权计算,再按词语位置顺序进行向量内积计算,使用随机梯度下降(SGD)算法联合学习相关权重和word embedding。本发明将词语按其位置顺序定向嵌入,实现了对词向量和词性相关加权矩阵进行的联合优化;在词语类比任务、词语相似性任务与定性分析都具有高效性。

技术领域

本发明属于机器学习技术领域,涉及word2vec方法,尤其涉及一种联合词性与词序的相关因子训练的word2vec改进方法,该方法提出Structured word2vec on POS模型,不仅可以感知词语位置顺序,将词语按其位置顺序定向嵌入,而且利用词性关联信息来建立上下文窗口内词语之间的固有句法关系;实现对词向量和词性相关加权矩阵进行联合优化。

背景技术

词性是自然语言处理的基本要素,词语顺序包含了所传达的语义与语法信息,它们都是自然语言中的关键信息。在word embedding模型中如何有效地将两者结合起来,是目前研究的重点。语言的语义向量空间模型用实值向量表示每个词语,而词向量可以作为许多应用中的特征,例如文献分类,自动问答,命名实体识别和形态相关词解析。词向量的表示效果通常用文献[1]记载的Mikolov等人的词语类比任务进行评估:通过检查词语向量之间的标量距离,检测出词语向量空间中更精细的结构关系。例如,类比“king is toqueen as man is towoman”应该通过向量方程式king-queen=man-woman编码在向量空间中。文献[2]指出这种评价方案有利于产生有意义维度的模型,从而捕获分布式表示的多聚类概念。因此,研究人员使用词语类比任务作为词语向量的主要评估方法。

随着深度神经网络学习的发展,文献[3]记载的Bengio提出的神经网络语言模型(Neural Network Language Model,NNLM)逐渐受到研究者们的关注与重视。文献[4]和[5]记载了将其应用于自然语言处理领域:如循环神经网络语言模型(Recurrent NeuralNetworks language model,RNNLM)。NNLM与RNNLM模型的缺陷在于结构过于复杂,其中非线性的隐层带来大量的计算。针对这个问题,文献[6]中,Mikolov提出了word2vec的两种简化的线性模型: Continuous Bag-of-Words Model(CBOW)和Continuous Skip-gram(CSG)。在CBOW与CSG的线性结构基础上,文献[7]中,Kavukcuoglu等人提出了相似模型vLBL和ivLBL。文献[8]中, Levy等人提出基于PPMI度量的explicit word embeddings模型。文献[9]中,Jeffrey等人提出了一种基于全局信息的词语表示模型GloVe,其将局部上下文窗口与矩阵分解的方法有效结合起来,建立word-word同窗共现计数矩阵,从而利用矩阵进行全局优化。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工商大学,未经北京工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710791297.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top