[发明专利]一种基于递归神经网络的隐式篇章关系分析方法有效
申请号: | 201710495283.5 | 申请日: | 2017-06-26 |
公开(公告)号: | CN107330032B | 公开(公告)日: | 2020-08-21 |
发明(设计)人: | 鉴萍;耿瑞莹;黄河燕 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30;G06N3/04 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 鲍文娟 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 递归 神经网络 篇章 关系 分析 方法 | ||
本发明提出了一种基于递归神经网络的隐式篇章关系分析方法,属于自然语言处理应用技术领域。包括以下步骤:首先基于一定规则初始化训练语料的词向量,然后把词向量作为Bi‑LSTM模型的输入,得到Bi‑LSTM模型的两个隐层向量,并将其拼接后作为递归神经网络的输入,该网络结构所需的句法树由PDTB语料的标注得出,合成函数采用神经张量合成,最后,得到每个论元的向量表示,并把两个论元向量拼接后输入MLP中进行分类,采用随机梯度下降法更新模型中的参数至收敛,使用性能最优的参数完成隐式篇章关系的分析。
技术领域
本发明涉及一种隐式篇章关系分析方法,特别涉及一种基于递归神经网络的隐式篇章关系分析方法,属于自然语言处理应用技术领域。
背景技术
作为自然语言处理应用技术领域中的一项重要任务,篇章关系分析,尤其是隐式篇章关系分析,一直为学者们所不懈研究着,并在统计机器翻译、信息抽取、情感分析等领域发挥着重要的作用。随着自然语言的语义分析逐渐成为学术和应用的主流,针对一篇文章,如何高效正确地理解其结构与内容,引起了越来越多研究人员的重视。如今又恰逢大数据时代,海量且无结构的信息层出不穷,将这些数据应用在隐式篇章关系分析上,能对现有的结果有较大的提升。然而,之前很多基于特征工程的隐式篇章关系分析方法存在普遍的数据稀疏性问题,而普通的深度学习方法,虽然应用到深度语义表示,但是并没有考虑到句子本身的连贯性顺序和句子内部的句法结构,因此,需要一种基于递归神经网络的方法,能够结合深度语义表示和句法结构树,训练出一个高效的隐式篇章关系分析模型,这是一项既有学术意义又有实用价值的研究课题。
隐式篇章关系分析,顾名思义,旨在篇章级别对没有篇章连接词连接的句际关系进行识别与归类。由于篇章连接词的缺失,整个隐式篇章关系的识别与分类过程,便从单个篇章连接词的语义分析转变为篇章论元结构的语义分析。目前,关于隐式篇章关系分析方面的研究并不充分,仍处于探索阶段;另外,没有篇章连接词这一特征的帮助,也使得隐式篇章关系分析的研究更加难以深入。主流的隐式篇章关系分析方法着眼于用特征或浅层语义表征隐式篇章关系论元对,针对句内与句际的深度语义挖掘和深度句法结构鲜有尝试。
发明内容
本发明的目的是为解决以往在隐式篇章关系分析中存在的下述问题:1)针对特征工程的方法无法有效利用深度语义信息以及数据稀疏的问题;2)针对普通神经网络的方法没有考虑句子原有连贯性的问题;3)针对普通的深度学习方法没有考虑句子原有的句法结构信息的问题;4)针对单词本身存在的一词多义问题。本发明提出使用词的分布式表示解决稀疏性问题,使用双向LSTM网络解决词的多义性问题,使用递归神经网络融合句法结构信息,从而在理解深度语义的基础上进行隐式篇章分析。
为实现上述目的,本发明所采用的技术方案如下:
本发明技术方案的思想是:首先,根据大规模语料库,训练表示单词语义的词向量;其次,根据PDTB2.0标注语料,训练Bi-LSTM模型,提取每个LSTM模型中的隐层变量并进行合成,用得到的向量表示每个单词的语义以获取该单词所在的上下文信息,从而消除歧义性;再次,根据PDTB2.0人工标注的句法树,递归地合成每个论元,合成函数采用神经张量法,在句法树的根节点得到对于每个论元的向量表示;最后,将两个向量拼接后输入多层感知机进行分类,使用随机梯度下降法拟合隐式篇章关系类别标签,找到使性能达到最优的模型参数完成隐式篇章关系的分析。
本发明的具体技术方案如下:
一种基于层次深度语义的隐式篇章关系分析方法,该方法包括以下步骤:
步骤一、语料预处理:统计PTTB2.0中每个单词出现的频率,保留出现频率最高的20000个单词,将其他单词标记为unk,将句法树中标注的词性进行删除,并将其二叉化;
步骤二、词的embedding表示:使用大规模语料库训练word2vec,将论元中每个单词映射为向量空间的低维向量,从而表示每个单词的语义;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710495283.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种大型碱泵泵体结构
- 下一篇:一种化工泵的泵体结构