[发明专利]一种基于神经图灵机的自动摘要生成方法在审

专利信息
申请号: 201910113193.4 申请日: 2019-02-13
公开(公告)号: CN110032729A 公开(公告)日: 2019-07-19
发明(设计)人: 李建欣;毛乾任;唐彬;李熙;黄洪仁;邰振赢 申请(专利权)人: 北京航空航天大学
主分类号: G06F17/27 分类号: G06F17/27;G06F16/34;G06F16/35;G06N3/04;G06N3/08
代理公司: 北京中创阳光知识产权代理有限责任公司 11003 代理人: 尹振启
地址: 100191*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 摘要生成 神经 自然语言处理工具 读取 解码器 语料库构建 解码 词性标注 单词序列 模型训练 语义分析 语义特征 摘要内容 编码器 源文本 抽取 文本 中文
【权利要求书】:

1.一种基于神经图灵机的自动摘要生成方法,其特征在于,包括三个步骤:步骤1,新闻中文语料库构建;步骤2,摘要生成模型训练;步骤3,采用神经图灵机解码,当编码器读取整个源文本之后,解码器部分形成文本摘要的单词序列。

2.如权利要求1所述的方法,其特征在于,所述新闻中文预料库构建中包括以下步骤:步骤1-1,对新闻文本进行预处理,从开放域爬取得到的新闻的正文往往含有除了表达内容外的其他噪声文字,采用正则表达式将任何与新闻上下文无关的噪声文本做移除处理,对新闻文本去除标点、URL链接、社交媒体实体,并将大段的文本分解为句子;

步骤1-2,正文文本的词向量处理,将文本转换为词向量形式,标记<START>为文本开始,<EOS>为文本结束位置。

3.如权利要求2所述的方法,其特征在于,所述摘要生成模型训练的步骤为:双向的门控循环神经网络Bi-GRU编码,所述编码是将文本向量输入Bi-GRU中,进行文本的序列编码;

其中,xi表示新闻文本第i个词,作为神经网络的输入,为前向编码向量,为后向编码向量,在前向编码从1时刻到t时刻正向计算,得到并保存每个时刻向前隐含层的输出;在后向编码沿着时刻t到时刻1反向计算,得到并保存每个时刻向后隐含层的输出;最后在每个时刻结合前向编码和后向编码的相应时刻输出的结果得到最终的输出。

4.如权利要求3所述的方法,其特征在于,所述采用神经图灵机解码包括以下步骤:步骤3-1,外部记忆组件构建;步骤3-2,记忆内容读取操作;步骤3-3,记忆内容更新操作;步骤3-4,摘要生成;步骤3-5,摘要生成模型训练。

5.如权利要求4所述的方法,其特征在于,在所述步骤3-1中,外部记忆组件构建,将编码后的隐状态向量作为外部记忆网络的记忆槽内容,一个槽对于输入文本中一个词对应的编码隐状态向量,文本的所有记忆槽按照原文词序构建成外部记忆组件,记为MS=[h1,h2...hn-1,hn],所述n为槽的个数即输入文本中词的个数;在所述步骤3-2中,记忆内容读取操作,对记忆单元内容进行读取,即在每一次解码器的输入时,将上下文语义信息作为解码输入的一部分,记忆网络增强了长序列文本的长短依赖能力,相当于在每次解码过程中选择性记住前面的信息,读到的上下语义信息记为Ct

Ct=Read(St,MS) (4)

其中,St表示解码器t时刻的隐状态向量,利用St从外部记忆MS中得到上下文信息,构造读函数:

所述,表示t-1时刻的记忆槽里边第i个槽向量。表示记忆组件中每一个槽的对应权重,为更新门控,用来控制数量为的权重信息进行更新,权重是由上一个时刻的解码器的隐状态向量控制,表示多少新的信息从上一个时刻的记忆网络中读取。

所述,其中为学习权重;St-1为解码器上一时刻的隐状态向量,为学习的权重。

在所述步骤3-4中,在每一个时刻的解码过程中,将三部分内容输入解码器GRU神经网络中,所述三部分内容分别是上一个时刻的解码器的输出的词向量wt-1,t时刻从记忆网络中读取的上下文信息编码向量Ct,和上一个时刻的解码器隐状态向量St-1,t时刻的解码隐状态向量为:

St=GRU(wt-1,St-1,Ct) (9)

在t时刻的输出为yt,设y<t表示到t-1时刻历史输出{y1,y2,...,yt-1},则p(yt|y<t,X)表示利用输入的源文本内容X和历史输出词去生成当前词yt的概率,为:

p(yt|y<t,X)=Softmax(MLP([St,wt-1,Ct])) (10)

其中softmax分类器用于预测当前t时刻的输出的词的概率分布,MLP为多层感知机;最后设计模型训练损失函数的优化器,不断训练直至模型得到最优评测效果。

6.如权利要求5所述方法,其特征在于,通过训练好的模型,以开放域文本为输入得到适应模型参数的最佳的生成摘要结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910113193.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top