[发明专利]一种基于主题增强的文本摘要生成方法在审

申请号：	202010611844.5	申请日：	2020-06-30
公开（公告）号：	CN111782810A	公开（公告）日：	2020-10-16
发明（设计）人：	赵欢;李婷婷;李祎颖	申请（专利权）人：	湖南大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/284;G06N3/04
代理公司：	湖南兆弘专利事务所(普通合伙) 43008	代理人：	邹大坚
地址：	410082 湖***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于主题增强文本摘要生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于主题增强的文本摘要生成方法，其特征在于，步骤包括：

步骤S1：对文本进行压缩编码后输入；

步骤S2：将主题信息和源文信息结合，通过双注意力机制形成文本信息；所述双注意力机制包括主题注意力模块和文本注意力模块；

步骤S3：将步骤S2形成的文本信息解码，生成与源文内容相关且主题信息增强的文本摘要。

2.根据权利要求1所述的基于主题增强的文本摘要生成方法，其特征在于，所述步骤S2中包括：获取文本的主题词，用来在自动生成摘要的过程中加入主题相关的信息；其中，提取主题信息并作为额外输入，使得生成摘要与源文之间共享相同主题信息。

3.根据权利要求2所述的基于主题增强的文本摘要生成方法，其特征在于，通过Twitter LDA模型的主题提取方法得到源文的主题词作为先验信息，以此确保最终生成的文本摘要与输入的源文在主题信息上保持统一。

4.根据权利要求3所述的基于主题增强的文本摘要生成方法，其特征在于，在所述步骤S2中采用Gibbs采样算法来训练Twitter LDA模型的参数，通过对Twitter LDA模型的训练，得到源文本每个主题和该主题的主题词集合。

5.根据权利要求1-4中任意一项所述的基于主题增强的文本摘要生成方法，其特征在于，所述步骤S1中，利用双向的LSTM编码器词对文本进行压缩编码，使每个词单元可以同时学习上下文信息。

6.根据权利要求5所述的基于主题增强的文本摘要生成方法，其特征在于，将双向的LSTM编码器的输出隐藏层状态{h₁,h₂,...,h_T}输入到文本注意力模块中，同时把从主题模块中提出的若干个出现概率最高的主题词组{t₁,t₂,...,t_n}输入到主题注意力模块中。

7.根据权利要求6所述的基于主题增强的文本摘要生成方法，其特征在于，对于时刻i，输入的上下文向量c_i可以由下式得到：

其中，hj的权重系数α_ij的计算方法下式所示：

其中，s_i-1是解码器上一时刻的隐藏层。

8.根据权利要求1-4中任意一项所述的基于主题增强的文本摘要生成方法，其特征在于，所述步骤S1包括对主题词的编码：

步骤S101：对主题词进行编码，获得主题词向量；

步骤S102：将这些主题词向量作为模型的输入；

步骤S103：将源文的主题词向量作为模型的输入，注入到主题注意力中，与文本注意力模型相结合。

9.根据权利要求1-4中任意一项所述的基于主题增强的文本摘要生成方法，其特征在于，所述步骤S3中通过解码器生成与源文档信息相关并且主题信息增强的文本摘要。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于湖南大学，未经湖南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010611844.5/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载