[发明专利]一种基于生成对抗网络的中文摘要生成方法和装置有效

申请号：	201810765723.9	申请日：	2018-07-12
公开（公告）号：	CN109766432B	公开（公告）日：	2021-03-30
发明（设计）人：	曹亚男;徐灏;尚燕敏;刘燕兵;谭建龙;郭莉	申请（专利权）人：	中国科学院信息工程研究所
主分类号：	G06F16/34	分类号：	G06F16/34;G06F16/35
代理公司：	北京君尚知识产权代理有限公司 11200	代理人：	邱晓锋
地址：	100093 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于生成对抗网络中文摘要方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于生成对抗网络的中文摘要生成方法和装置。该方法包括：1)通过对给定的中文数据集进行预处理操作形成训练集；2)构建基于生成对抗网络的中文摘要生成模型，并使用训练集对中文摘要生成模型进行训练；3)将待生成摘要的中文文本输入到训练完毕的中文摘要生成模型，得到对应的摘要。本发明使用判别器最小化误差来代替最大生成摘要概率的框架；特别设计了由3个LSTMs组成的判别器，能够更好地捕获特征，辅助分类效果；提出使用以字为单位结合上下文，能够有效提升文本摘要的效率。本发明能够对大规模中文文本进行摘要的自动生成，生成的摘要更自然、连贯，具有可读性。

技术领域

本发明属于人工智能、深度学习技术领域，具体涉及一种基于生成对抗网络的中文摘要生成方法和装置。

背景技术

随着大数据时代的到来，互联网的信息正在以指数级别的增长，尤其是文本信息。如何快速地从冗余的文本中获取关键信息显得非常重要。然而，以人工的方式来构建摘要是昂贵且不切实际的。因此，构建一个成本低、规模大，效率高的自动摘要系统是具有实际用用价值的。

目前中文摘要生成方法可以分为“提取式摘要”和“生成式摘要”。提取式摘要方法有基于分类的贝叶斯、最大熵和SVM，基于图的TextRank和LexRank方法。由于生成式摘要是基于理解而生成的，更符合人类的思维模式，因此，该方法是目前研究的趋势。生成式摘要主要基于深度学习的seq2seq模型实现的。此外，为了加强机器学习，会加入Attention机制，LVT方法等。

虽然基于seq2seq的模型在摘要生成领域取得了一定的成绩，但是最大释然估计(MLE)的优化方法与实际评价指标不一致，使得生成的摘要质量不高。尤其在中文长文本摘要的应用上，复杂的结构和长距离的上下文依赖使得生成式摘要的效果很差。

发明内容

为了解决优化方法与实际评价指标不一致问题，本发明提出一种基于生成对抗网络的中文摘要生成方法和装置。该方法将三个长短时记忆神经网络(LSTMs)作为判别器来判别摘要是机器生成还是人工摘要，将差距信息反馈给seq2seq模型，使得seq2seq模型能生成更接近人工摘要的摘要。

本发明采用的技术方案如下：

一种基于生成对抗网络的中文摘要生成方法，包括以下步骤：

1)通过对给定的中文数据集进行预处理操作形成训练集；

2)构建基于生成对抗网络的中文摘要生成模型，并使用训练集对中文摘要生成模型进行训练；

3)将待生成摘要的中文文本输入到训练完毕的中文摘要生成模型，得到对应的摘要。

进一步地，步骤1)所述预处理包括：

1.1)将给定的中文数据集的文本和摘要一一对应，形成文本摘要对；

1.2)同时对文本和摘要去除特殊字符、表情符、全角字符；

1.3)将步骤1.2)得到的数据集，使用“TAGURL”替换所有超链接URL，使用“TAGDATA”替换所有日期，使用“TAGNUM”替换所有数字，使用“TAGPUN”替换所有标点符号；

1.4)将1.3)得到的数据按字切开，并使用停用字典过滤停用词；

1.5)将文本摘要对一一对应地同时混洗，并按比例切分成训练集、验证集和测试集；

1.6)根据训练数据集构建一定长度的字典，并将文本和摘要中的字没有出现在字典中的表示成“UNK”，在文档开始添加标记“BOS”，结束添加“EOS”，将文本和摘要分别处理成固定长度，多余的字直接截断，小于长度的用占位符“PAD”填充；

1.7)将文本摘要数据集中的每个字用一个固定维度k的字向量表示，包括步骤1.6)中的标记。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所，未经中国科学院信息工程研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810765723.9/2.html，转载请声明来源钻瓜专利网。

上一篇：一种基于词义主题模型的社交网络短文本推荐方法
下一篇：自动编目方法及系统、计算机可读存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于生成对抗网络的中文摘要生成方法和装置有效

专利文献下载