[发明专利]一种基于递归神经网络的隐式篇章关系分析方法有效

专利信息
申请号: 201710495283.5 申请日: 2017-06-26
公开(公告)号: CN107330032B 公开(公告)日: 2020-08-21
发明(设计)人: 鉴萍;耿瑞莹;黄河燕 申请(专利权)人: 北京理工大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/30;G06N3/04
代理公司: 北京正阳理工知识产权代理事务所(普通合伙) 11639 代理人: 鲍文娟
地址: 100081 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 递归 神经网络 篇章 关系 分析 方法
【权利要求书】:

1.一种基于递归神经网络的隐式篇章关系分析方法,其特征在于,包括以下步骤:

步骤一、语料预处理:统计PDTB2.0中每个单词出现的频率,保留出现频率最高的20000个单词,将其他单词标记为unk,将句法树中标注的词性进行删除,并将其二叉化;

步骤二、词的embedding表示:训练word2vec,将论元中每个单词映射为向量空间的低维向量,从而表示每个单词的语义;

步骤三、构建双向LSTM层:对于训练语料中的每个论元,即标注有篇章关系类别的句子,首先用步骤二中训练的词向量对其进行编码,即把每个单词映射为维度为50的向量;对于每个论元,分别按从头到尾和从尾到头的顺序构建LSTM模型,将两个模型的隐层向量拼接后表示每个单词,作为下一层的输入;

步骤四、构建递归神经网络:按照步骤一处理过的句法树,递归地合成每个树节点的语义表示向量,并使用根节点的语义表示向量作为论元的语义向量,将两个论元的向量拼接,作为下一层的输入;

递归神经网络的构建包含以下步骤:

(1)获取句法树:我们使用PDTB2.0所标注的成分句法树,首先将其二叉化,即保证树中每个节点最多只有两个子节点,然后去掉词性,最终得到由左右括号和单词所组成的句法序列;

(2)确定合成函数:对于从堆栈S中弹出的元素xi和xj,按照如下方式合成:

其中,V∈R2d×2d×d是合成张量,W∈Rd×2d是合成矩阵,b∈Rd是和合成偏置,向量维度d=100,f是relu激活函数,产生的新向量x将会重新被压入堆栈S作为新的合成函数的输入;

(3)确定合成顺序:对于第一步所得句法序列,我们从左至右进行遍历,读取到左括号’(’时,不采取任何操作,读取到右括号’)’时,执行Reduce操作,读取到单词时,执行Shift操作;将Shift和Reduce操作定义如下:

Shift:对于读取到的单词w,将其对应的词向量表示xt压入堆栈S;

Reduce:从堆栈S中弹出两个元素xi和xj,将xi和xj按照步骤二中的合成函数进行合成,并将合成结果压入堆栈S;

步骤五、构建多层感知机分类器:将步骤四中的得到的向量输入多层感知机中,在全连接的网络之后接入softmax函数,最终得到分类预判结果,利用语料库真实标注结果与预判结果计算交叉熵作为损失函数,采用随机梯度下降法更新模型中的参数,迭代一定次数后达到收敛;

步骤六、篇章关系识别:将待识别论元对作为训练后神经网络的输入,利用多层感知机的输出得到每个类别上的分类概率,选取其中概率最大值对应的篇章关系作为最终的篇章关系识别结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710495283.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top