[发明专利]融合序列语法标注框架的生成式文本摘要方法在审

专利信息
申请号: 201910225744.6 申请日: 2019-03-25
公开(公告)号: CN109948162A 公开(公告)日: 2019-06-28
发明(设计)人: 罗森林;杨俊楠;潘丽敏;王睿怡;吴舟婷 申请(专利权)人: 北京理工大学
主分类号: G06F17/27 分类号: G06F17/27;G06F17/21
代理公司: 暂无信息 代理人: 暂无信息
地址: 100081 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及融合序列语法标注框架的生成式文本摘要方法,属于自然语言处理领域。主要为了解决现有模型在产生摘要时没有考虑语法结构,因此生成的摘要存在不满足语法规则的问题。本发明首先利用开源句法分析器Berkeley Parser对句子进行成分句法分析,生成短语解析树;其次通过深度优先遍历算法,将短语解析树线性化成一个结构标签序列;然后使用word2vec工具对语法标注序列进行向量化;最后将源语法结构信息输入到编码器中,经过摘要生成模块编、解码,最终生成摘要。实验在CNN/Daily Mail数据集上进行,结果表明本发明不仅解决了超纲词、重复短语、主题不显著等问题,而且生成的摘要基本满足语法规则,可读性更强,与源文本语法更具有一致性,ROUGE得分比先进算法有一定提高。
搜索关键词: 短语 序列语法 语法规则 语法结构 解析树 生成式 算法 标注 文本 深度优先遍历 摘要生成模块 自然语言处理 句法分析器 解码 结构标签 句法分析 信息输入 语法标注 融合 编码器 数据集 线性化 向量化 源文本 可读性 句子 语法 重复
【主权项】:
1.融合序列语法标注框架的生成式文本摘要方法,其特征在于所述方法包括如下步骤:步骤1,使用开源句法分析器Berkeley Parser,用训练集中的英文文本构建短语解析树;步骤2,利用深度优先遍历算法,将短语解析树线性化成一个结构标签序列,为了获得单词序列中某一个单词的结构标签注释向量,在标签序列中查找该单词的词性(POS)标签,并将标签的注释向量视为该单词的标签注释向量;步骤3,向量化句法标注序列;步骤4,利用源语法结构信息生成摘要;将句法标注向量和词向量的混合序列输入编码器中,进行编码;从编码器的输出中抽取词对应的隐层状态向量作为词标注向量hi,通过前一时刻状态st‑1和源词标注向量hi来计算注意力权重at,使得权重向量捕获到源语言和目标语言的关联程度,在输入循环隐层状态st、前一个预测词yi‑1和源端上下文向量的基础上,通过一个多层感知机来预测目标词yi,最终生成文本摘要。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910225744.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top