[发明专利]一种基于FW机制及LSTM的递归网络模型及学习方法在审
申请号: | 201910476156.X | 申请日: | 2019-06-03 |
公开(公告)号: | CN110288081A | 公开(公告)日: | 2019-09-27 |
发明(设计)人: | 王军茹;卢继华;易军凯;徐懿;李梦泽;何天恺 | 申请(专利权)人: | 北京信息科技大学;北京理工大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 北京理工正阳知识产权代理事务所(普通合伙) 11639 | 代理人: | 王民盛 |
地址: | 100192 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络模型 递归 测试数据 学习 自然语言处理技术 参数设定模块 递归神经网络 模型定义模块 数据导入模块 数据生成模块 准确度 测试模块 迭代模块 模型处理 配置参数 评估数据 权重参数 输出向量 网络参数 网络训练 训练数据 初始化 复杂度 评估 加载 收敛 送入 输出 优化 | ||
本发明涉及一种基于FW机制及LSTM的递归网络模型及学习方法,属于递归神经网络以及自然语言处理技术领域。包括基于FW机制及LSTM的递归网络模型及依托的学习方法;前者包括数据导入模块、数据生成模块、加载与迭代模块、参数设定模块、模型定义模块、递归网络训练、评估以及测试模块;学习方法包括:1导入数据;2将导入数据进行拆分得到训练数据、评估数据和测试数据;3根据导入数据,获取预先设定好的配置参数;4完成权重参数的初始化;5将训练、评估和测试数据送入LSTM单元计算输出向量;6计算loss函数,对网络参数进行优化,输出复杂度。所述网络模型及学习方法进一步提升了LSTM模型处理的准确度及收敛速度。
技术领域
本发明涉及一种基于FW机制及LSTM的递归网络模型及学习方法,属于递归神经网络以及自然语言处理技术领域。
背景技术
自然语言处理模型通常采用递归神经网络(Recurrent Neural Network,RNN)结构。RNN由隐藏层状态以及权重这两种时间规模的变量组成。隐藏层状态在每个时间步进都会更新一次;而权重则在序列所有信息全部输入网络之后再进行更新。因此,代表着网络中各层间连接关系的权重往往对应着网络的“长期记忆”。但是,实际网络各层关系变化与递进,往往与输入序列长度相关,可能是3,5个时间步进,也可能是30,50个时间步进需要更新。
基于LSTM单元的语言模型是RNN应用较为广泛的改进网络之一,该模型通过对文本数据的训练,根据输入的文本预测该段文本中即将出现的下一个单词。网络参数初始状态用零向量进行初始化,并在读取每个单词后得到更新。模型在处理输入数据时使用反向传播法进行网络参数的优化。把输入数据,即若干句子组成的段落划分为固定长度的输入块,每个输入块还有固定长度个单词,每当处理完一个输入块后执行反向传播对网络参数进行更新。
Jimmy Ba等人提出了快速权重(Fast Weights,FW)机制,即引入更新周期处于隐藏层状态以及权重这两种时间规模之间的新变量来存储快速更新的隐藏层状态,对于序列到序列模型的学习已被证明十分有效。出于上述考虑,在保留现有隐藏层状态和标准权重的同时引入新的变量,这种变量的更新周期要比隐藏层更新周期更长,但是比标准权重更新周期更短,也称为快速权重。
在神经网络训练方面,一般需经过复杂而耗时的处理,才能获得较好的学习性能,即需要较高的时间和计算成本。因此,研究者们为降低此时间及计算成本,往往选择批量处理。
其中,批量正则化为其中的一个很典型的技术,然而其在递归神经网络的作用并不明显。因此,G.Hinton等人提出了层正则化(layer normalization,LN),具体实现为计算递归神经网络中某一个训练样本中在一个隐藏层上所有隐藏单元的状态的均值和标准差。LN用于解决快速权重机制中随着训练变多,解决隐藏层更新值期间的溢出问题。
衡量语言模型性能的评价指标参数是复杂度perplexity和loss。其中,perplexity表示语言模型在学习文本数据后根据句子前面的单词预测下一单词的平均可选数量。例如,一个序列是由A、B、C、D、E五个字母无规律随机组成,那么预测下一个字母时,有5个等概率的选项,那么复杂度的值即为5。因此,若一个语言模型的复杂度为K,就说明语言模型在预测即将出现的单词时,平均有K个单词拥有相同的概率作为合理预测的选择。其中,K为整数,为目标单词的总数。以PTB模型为例,评价PTB模型性能指标的复杂度perplexity值的计算公式为(1):
其中,Ptargeti表示第i个目标单词,ln为对数函数;
另一衡量语言模型性能的评价指标参数loss定义为目标单词出现概率的平均负对数,表达式如(2):
perplexity值与loss的关系为(3):
perplexity=eloss (3)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学;北京理工大学,未经北京信息科技大学;北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910476156.X/2.html,转载请声明来源钻瓜专利网。