[发明专利]基于深度学习的自然语言处理中的序列标注方法有效

申请号：	201610950893.5	申请日：	2016-10-25
公开（公告）号：	CN106547737B	公开（公告）日：	2020-05-12
发明（设计）人：	郑骁庆;陈易;林孟潇	申请（专利权）人：	复旦大学
主分类号：	G06F40/30	分类号：	G06F40/30
代理公司：	上海正旦专利代理有限公司 31200	代理人：	陆飞;陆尤
地址：	200433 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明属于计算机自然语言处理技术领域，具体为基于深度学习的自然语言处理中的序列标注方法。本发明可以用于包括中文分词、英文浅层句法分析、中英文词性标注和命名识别等各种自然语言的序列标注任务。采用深度学习技术，对于所输入的句子，通过计算机程序输出句子中各组成单元的标签类型。该序列标注方法的关键包括：基于深度学习的快速序列标注网络结构和学习算法、综合前向标签信息的网络结构和加速算法，以及这些关键技术的整合和集成方式。基于深度学习实现的系统具备参数规模小，使用速度快的优点，非常适合于计算资源有限的环境，可以部署在手机等计算资源相对有限的移动计算平台上，能够较大地提高系统响应速度和用户满意度。
搜索关键词：	基于深度学习自然语言处理中的序列标注方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于深度学习的自然语言处理中的序列标注方法，是运用计算机对输入语句，根据任务定义的标签集合，为句子中的每一个组成单元即字或词按其出现顺序选择相应的标签类型；其特征在于，具体步骤为：（1）为相应语言的每一个组成单元对应一个向量表示，该向量表示可以随机生成或者采用无监督的方法进行预训练，训练以后，通过查找向量表的方式将每一个单元转换成相应的向量表示；（2）定义各种序列标注任务的标签集合，确定每种序列标注任务分别包括哪些标签；（3）准备中文分词、英文浅层句法分析、词性标注、命名识别等自然语言处理中序列标注任务的语料；（4）采用快速序列标注网络结构或综合前向标签信息的网络结构，采用Perceptron‑style算法或者Perceptron‑style算法与Max‑margin相结合算法对网络进行训练；如采用基于深度学习的快速序列标注网络结构和学习算法进行网络训练，其快速序列标注网络结构中，一个组成单元的标签与其周围单元相关，因而网络采用窗口模型，即在估计当前单元属于某个标签的可能性时，将这个单元以及周围的单元作为输入；如果窗口大小设置成5，则表示将这个单元及其左边和右边各两个单元作为输入窗口；如果左边和右边的字符数量不足于窗口规定的大小，则使用特殊的填充符代替；每一个输入句子中的单元通过查找向量表的方式转换成相应的向量表示；每一个单元的表示以随机生成或者采用无监督的方法进行预训练；存储在向量表中的参数也在训练中进行不断调整；之后将这些向量拼接成特征矩阵，特征矩阵的列数为窗口大小，每一列为对应单元的向量表示；然后对特征矩阵进行单维卷积运算，单维卷积是指对于特征矩阵每一行向量点积相应的参数向量即卷积核，不同行向量进行点积操作时使用不同的卷积核；在单维卷积的作用下，特征矩阵转换成与单元向量维度相同的向量，该向量表示某一窗口的特征表示，可以看成是当前单元在周围单元影响下所产生的语义特征表示；接着经过一个线性网络层之后，使用Sigmoid或hardTanh函数进行非线性的变换，最后再使用一个线性层，输出与任务标签数量相等的向量，向量每一元素表示对应标签的可能性；给定一个句子，随着窗口从左向右的滑动，网络输出一个矩阵，矩阵中的每一个元素fθ（t|i）表示句子中第i个单元属于标签t的可能性的估计，其中θ表示网络的参数；在序列标注任务中，由于前后标签之间有很强的依赖关系，引入矩阵Aij表示从标签i跳转到标签j的可能性；给定一个含有n个单元的句子s[1:n]，为某个等长的标签序列t[1:n]进行估分：Score（s[1:n],t[1:n],θ）=（公式1）在网络参数给定的情况下，采用维特比解码算法得到一个分值最高的标签序列作为标注结果；训练的方法是在训练集上，要求每一个样本的正确标注序列发生的概率最大：（公式2）其中：（s, t）表示训练集中的一个样本；训练采用梯度下降法，网络所有参数使用以下公式进行更新：（公式3）其中：λ表示学习步长；在计算公式3右侧偏导时，采用Perceptron‑style算法，即仅计算出参数调整的方向，而其大小都为固定值1，具体计算过程如下：当前网络参数下比较最高得分的标注序列和正确标注序列，如不一致，在发生不一致的位置，设置导致错误标注序列的输出位置的偏导为−1，而对应正确标注序列的输出位置偏导为+1；同样的偏导计算方法也适用于转移矩阵Aij；模型参数训练时同时结合使用Max‑margin方法，即不仅要求正确标注序列的得分最高，而且要求其分值与不正确标注序列最高得分之差超过规定的阈值；如果采用综合前向标签信息的网络结构和加速算法进行网络训练，具体实现方法是：通过向量表，将每一个标签也对应于一个向量表示，并且将每一个可能的标签向量与当前窗口的特征矩阵进行并列，之后进行类似的单维卷积来产生相应的语义特征表示；网络为每一个句子组成单元的每一种可能的前向标签输出与任务标签数量相等的向量，向量的每一元素同样表示对应标签的可能性；结合转移矩阵Aij，采用维特比解码算法，得到一个分值最高的标签序列作为标注结果；在计算不同前向标签假设下的窗口语义特征表示可以对中间结果进行共享，从而加快网络计算速度，具体加速方法是：首先计算出其重叠的部分，即不考虑前向标签时的中间结果；然后计算不同标签向量影响的部分；最后将中间结果加上标签影响的部分得出最终计算结果；（5）新增和扩展语料后，在已训练网络参数基础上采用相同训练算法对参数进行调整，或者完全重新训练网络；具体训练方法见步骤（4）所述；（6）网络训练结束后，在网络参数给定的情况下，采用维特比解码算法，得到一个分值最高的标签序列作为标注的结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于复旦大学，未经复旦大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610950893.5/，转载请声明来源钻瓜专利网。

上一篇：防火保温材料板
下一篇：耐冲击比水轻隔音的泥塑玻复合隔热泡沫墙

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于深度学习的自然语言处理中的序列标注方法有效

专利文献下载