[发明专利]融合序列语法标注框架的生成式文本摘要方法在审

申请号：	201910225744.6	申请日：	2019-03-25
公开（公告）号：	CN109948162A	公开（公告）日：	2019-06-28
发明（设计）人：	罗森林;杨俊楠;潘丽敏;王睿怡;吴舟婷	申请（专利权）人：	北京理工大学
主分类号：	G06F17/27	分类号：	G06F17/27;G06F17/21
代理公司：	暂无信息	代理人：	暂无信息
地址：	100081 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及融合序列语法标注框架的生成式文本摘要方法，属于自然语言处理领域。主要为了解决现有模型在产生摘要时没有考虑语法结构，因此生成的摘要存在不满足语法规则的问题。本发明首先利用开源句法分析器Berkeley Parser对句子进行成分句法分析，生成短语解析树；其次通过深度优先遍历算法，将短语解析树线性化成一个结构标签序列；然后使用word2vec工具对语法标注序列进行向量化；最后将源语法结构信息输入到编码器中，经过摘要生成模块编、解码，最终生成摘要。实验在CNN/Daily Mail数据集上进行，结果表明本发明不仅解决了超纲词、重复短语、主题不显著等问题，而且生成的摘要基本满足语法规则，可读性更强，与源文本语法更具有一致性，ROUGE得分比先进算法有一定提高。
搜索关键词：	短语序列语法语法规则语法结构解析树生成式算法标注文本深度优先遍历摘要生成模块自然语言处理句法分析器编解码结构标签句法分析信息输入语法标注融合编码器数据集线性化向量化源文本可读性句子语法重复
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.融合序列语法标注框架的生成式文本摘要方法，其特征在于所述方法包括如下步骤：步骤1，使用开源句法分析器Berkeley Parser，用训练集中的英文文本构建短语解析树；步骤2，利用深度优先遍历算法，将短语解析树线性化成一个结构标签序列，为了获得单词序列中某一个单词的结构标签注释向量，在标签序列中查找该单词的词性(POS)标签，并将标签的注释向量视为该单词的标签注释向量；步骤3，向量化句法标注序列；步骤4，利用源语法结构信息生成摘要；将句法标注向量和词向量的混合序列输入编码器中，进行编码；从编码器的输出中抽取词对应的隐层状态向量作为词标注向量h_i，通过前一时刻状态s_t‑1和源词标注向量h_i来计算注意力权重a^t，使得权重向量捕获到源语言和目标语言的关联程度，在输入循环隐层状态s_t、前一个预测词y_i‑1和源端上下文向量的基础上，通过一个多层感知机来预测目标词y_i，最终生成文本摘要。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京理工大学，未经北京理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910225744.6/，转载请声明来源钻瓜专利网。

上一篇：用于中文舆情的数据处理方法及装置
下一篇：序列动态阅读的自然语言语义匹配方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]融合序列语法标注框架的生成式文本摘要方法在审

专利文献下载