[发明专利]基于深度学习的上下文感知的动态词或字向量的构建及使用方法在审
申请号: | 201610938238.8 | 申请日: | 2016-10-25 |
公开(公告)号: | CN106547735A | 公开(公告)日: | 2017-03-29 |
发明(设计)人: | 郑骁庆;封江涛 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/04 |
代理公司: | 上海正旦专利代理有限公司31200 | 代理人: | 陆飞,陆尤 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于计算机自然语言处理技术领域,具体为一种基于深度学习的上下文感知的动态词或字向量的构建及使用方法。基于深度学习的上下文感知的词或字向量动态构造方法包括从海量文本中通过无监督学习方法同时学习到词或字的全局特征向量及其在特定上下文出现时的特征向量表示,结合全局特征向量和上下文特征向量动态地产生词或字向量表示。本发明还根据上下文动态构造词或字向量应用于自然语言处理系统。本发明主要用于解决词或字在不同上下文下表示不同意思的问题,即一词或一字多义的问题。使用动态词或字向量可以明显地提高不同语言的各种自然语言处理任务的性能,比如中文分词、词性标注、命名识别、语法分析、语义角色标注、情感分析、文本分类、机器翻译等。 | ||
搜索关键词: | 基于 深度 学习 上下文 感知 动态 向量 构建 使用方法 | ||
【主权项】:
一种基于深度学习的上下文感知的动态词或字向量的构建方法,是采用计算机根据上下文动态构造词或字的特征向量表示,其特征在于,具体步骤如下:(1)首先,从海量文本中,通过无监督学习的方式获得词或字的全局特征向量及其在特定上下文中的特征向量表示;(2)然后,根据所获得的全局特征向量及其在特定上下文中的特征向量动态产生词或字的向量表示;分别介绍如下:(一)从海量文本中,通过无监督学习的方式获得词或字的全局特征向量及其在特定上下文中的特征向量表示;从海量文本中通过无监督学习方法同时学习到词或字的全局特征向量及其在特定上下文出现时的特征向量表示所使用的神经网络,其中,将目标词或字的周围上下文词或字的向量拼接成上下文特征矩阵,采用单维卷积从上下文特征矩阵产生词或字的上下文特征向量,然后采用Logistic回归方法让该上下文特征向量将目标词或字的全局特征向量与非目标词或字的全局特征向量区分开来;一个词或字的语义一般与其周围词或字最为相关,因而网络采用窗口模型,即在产生当前词或字的上下文表示向量时,将这个词或字的周围的若干个词或字作为输入;在使用神经网络训练时,每一个词或字对应到两个向量,一个称为普通特征向量,用于通过卷积神经网络产生目标词或字的上下文表示向量,普通特征向量将作为神经网络的输入向量;另一个称为全局特征向量,用作目标词或字的代表向量;对于每一个输入句子中某个窗口上下文,窗口中的词或字,以它们的普通特征向量表示,并且拼接成上下文特征矩阵,特征矩阵的列数为窗口大小减一,每一列为对应词或字的普通特征向量;然后对特征矩阵进行单维卷积运算,单维卷积是指对于特征矩阵每一行向量点积相应的参数向量即卷积核,不同行向量进行点积操作时使用不同的卷积核;在单维卷积的作用下,特征矩阵转换成与词或字向量维度相同的向量,该向量表示可以看成是目标词或字所在上下文的特征表示;获得某个上下文的特征向量表示之后,采用Logistic回归方法让该上下文特征向量能够将目标词或字的全局特征向量与非目标词或字的全局特征向量区分开来;神经网络的训练目标为:在给定上下文的情况下,目标词或字出现的条件概率最大,即训练的目标函数是:(公式1)其中:D为特定语言的词典或字典,包括该语言所需训练的词或字;Ct是目标词或字t在训练集中可能出现的所有上下文;θ表示神经网络的所有参数,包括单维卷积的权重、词或字的普通特征向量和全局特征向量;公式1中的概率Pθ(t|c)使用Logistic回归分解成对于目标和非目标词或字的形式:(公式2)其中:v(c)是通过单维卷积网络产生的目标词或字的当前上下文特征表示;s(x)为词或字x的全局特征向量表示;neg(t)是根据出现频率通过随机采样从词典或字典中挑选的一组非目标词或字,作为训练的负样本;ϕ表示Sigmoid非线性函数;采用梯度下降法最小化负的目标函数,训练过程中所有参数会被迭代更新,包括单维卷积的权重、词或字的普通特征向量和全局特征向量;(二)根据所获得的全局特征向量及其在特定上下文中的特征向量动态产生词或字的向量表示;上下文感知的动态产生词或字的向量表示的方法如下:f(x, c) = (1 − α) s(x) +αv(c) (公式3)其中:x表示句子中的每一个当前词或字;c表示当前词或字的上下文(即窗口中除当前词或字外的若干个词或字);s(x)为当前词或字的全局特征向量表示;v(c)则是上下文窗口中的词或字的普通特征向量通过单维卷积所产生的当前上下文的特征向量表示;α为加权系数,表示在产生动态词或字向量表示时,两个组成向量之间的比重关系。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610938238.8/,转载请声明来源钻瓜专利网。
- 上一篇:一种电解车间变形缝覆盖结构
- 下一篇:一种防火保温材料