[发明专利]一种基于递归神经网络的隐式篇章关系分析方法有效

申请号：	201710495283.5	申请日：	2017-06-26
公开（公告）号：	CN107330032B	公开（公告）日：	2020-08-21
发明（设计）人：	鉴萍;耿瑞莹;黄河燕	申请（专利权）人：	北京理工大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/30;G06N3/04
代理公司：	北京正阳理工知识产权代理事务所(普通合伙) 11639	代理人：	鲍文娟
地址：	100081 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于递归神经网络篇章关系分析方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于递归神经网络的隐式篇章关系分析方法，其特征在于，包括以下步骤：

步骤一、语料预处理：统计PDTB2.0中每个单词出现的频率，保留出现频率最高的20000个单词，将其他单词标记为unk，将句法树中标注的词性进行删除，并将其二叉化；

步骤二、词的embedding表示：训练word2vec，将论元中每个单词映射为向量空间的低维向量，从而表示每个单词的语义；

步骤三、构建双向LSTM层：对于训练语料中的每个论元，即标注有篇章关系类别的句子，首先用步骤二中训练的词向量对其进行编码，即把每个单词映射为维度为50的向量；对于每个论元，分别按从头到尾和从尾到头的顺序构建LSTM模型，将两个模型的隐层向量拼接后表示每个单词，作为下一层的输入；

步骤四、构建递归神经网络：按照步骤一处理过的句法树，递归地合成每个树节点的语义表示向量，并使用根节点的语义表示向量作为论元的语义向量，将两个论元的向量拼接，作为下一层的输入；

递归神经网络的构建包含以下步骤：

(1)获取句法树：我们使用PDTB2.0所标注的成分句法树，首先将其二叉化，即保证树中每个节点最多只有两个子节点，然后去掉词性，最终得到由左右括号和单词所组成的句法序列；

(2)确定合成函数：对于从堆栈S中弹出的元素x_i和x_j，按照如下方式合成：

其中，V∈R^2d×2d×d是合成张量，W∈R^d×2d是合成矩阵，b∈R^d是和合成偏置，向量维度d＝100，f是relu激活函数，产生的新向量x将会重新被压入堆栈S作为新的合成函数的输入；

(3)确定合成顺序：对于第一步所得句法序列，我们从左至右进行遍历，读取到左括号’(’时，不采取任何操作，读取到右括号’)’时，执行Reduce操作，读取到单词时，执行Shift操作；将Shift和Reduce操作定义如下：

Shift：对于读取到的单词w，将其对应的词向量表示x_t压入堆栈S；

Reduce：从堆栈S中弹出两个元素x_i和x_j,将x_i和x_j按照步骤二中的合成函数进行合成，并将合成结果压入堆栈S；

步骤五、构建多层感知机分类器：将步骤四中的得到的向量输入多层感知机中，在全连接的网络之后接入softmax函数，最终得到分类预判结果，利用语料库真实标注结果与预判结果计算交叉熵作为损失函数，采用随机梯度下降法更新模型中的参数，迭代一定次数后达到收敛；

步骤六、篇章关系识别：将待识别论元对作为训练后神经网络的输入，利用多层感知机的输出得到每个类别上的分类概率，选取其中概率最大值对应的篇章关系作为最终的篇章关系识别结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京理工大学，未经北京理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710495283.5/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载