[发明专利]一种生成式摘要模型构建、提取生成式摘要方法及系统有效
申请号: | 202010714359.0 | 申请日: | 2020-07-21 |
公开(公告)号: | CN111966820B | 公开(公告)日: | 2023-03-24 |
发明(设计)人: | 蔡晓妍;石锴乐;杨黎斌;戴航;刘森 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/211;G06F40/284;G06N3/0464;G06N3/08 |
代理公司: | 西安恒泰知识产权代理事务所 61216 | 代理人: | 孙雅静 |
地址: | 710068 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 生成 摘要 模型 构建 提取 方法 系统 | ||
一种生成式摘要模型构建、提取生成式摘要方法及系统,通过在传统的编码解码网络结合HITS注意力的重要性排序方法和分层解码算法等,并HITS注意力的重要性排序方法来迭代学习文档向量,每次解码会将上一时刻输出的生成句子向量与得分较高且未被参考过的已排序原文对应句子再次进行计算,直至得到收敛时刻得到的生成句子向量集、生成词向量集和收敛时刻的句子重要性排序,最后利用解码生成算法得到生成摘要文本。以此能够学习更多文本里的显著信息,降低结果中的冗余重复,维持生成结果的流畅度,产生出高质量的生成式摘要结果,整体自动化程度高,不需要进行人工干预。
技术领域
本发明涉及生成式摘要提取技术领域,具体涉及一种生成式摘要模型构建、提取生成式摘要方法及系统。
背景技术
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。对于自动文摘系统,随着信息的快速增长,篇章级文本在篇幅和数量上的显著增长给网络信息地利用带来了新的挑战,为了更好地利用有效信息,各种信息抽取技术便由此产生。通过对文本的有效信息进行自动抽取,以此大幅提高信息的利用率。文章摘要的目的在于使用计算机从大量文本中提取关键信息,对于存在于互联网中篇幅量大,语义复杂的文本来说,这一技术更是十分重要。面对如今快速增长的数据信息,尤其对于信息获取的质量要求极高的科学研究领域,对设计一个可以自动生成高质量文本摘要的系统的需求是十分巨大的。
生成式摘要的自动生成是自然语言处理的一个重要的开放问题,传统的基于编码器-解码器(encoder-decoder)模型的生成式摘要方法存在重复和语义无关的问题。最近的研究将传统的注意力或基于图的注意力应用到编码器-解码器模型中来解决这个问题,基于假设原始文档中的所有句子都是无法区分的,然而集合中不同的词通常不是同等重要的,重要句子中的词被认为比普通句子中的词更突出。现有的方法不同程度上面临着信息冗余,不易获取显著信息,信息重复等问题。
发明内容
本发明的目的在于提供一种生成式摘要模型构建、提取生成式摘要方法及系统,结合KL散度和分层解码算法等,能够学习更多原文本里的显著信息,降低结果中的冗余重复,维持生成结果的流畅度,产生出高质量的生成式摘要结果。
为达到上述技术效果,本发明采取的技术方案为:
一种生成式摘要模型构建方法,包括以下步骤:
S1,获取多段文本,获得文本数据集;每段文本包括多个句子,每段文本的每个句子包括多个词;
获取每段文本对应的摘要,获得摘要文本集;每段摘要文本包括多个句子,每段摘要文本的每个句子包括多个词;
S2,对文本数据集和摘要文本集分别进行嵌入表示,获得训练集,训练集为文本数据集中每段文本中每个句子的每个词的嵌入表示和摘要文本集中每段摘要文本的嵌入表示;
每段文本中所有词的嵌入表示为词向量集,其中,输入数据为文本数据集中的全部词向量集,标签为所有摘要文本的嵌入表示;
S3,将输入数据输入并训练编码-解码神经网络,以获得生成式摘要模型;
编码-解码神经网络包括依次设置的词编码网络、句子编码网络、解码网络;
词编码网络包括双向GRU编码器,用于将训练集输入词编码网络,得到所有文本中每段文本的句子向量集;
句子编码网络包括双向GRU编码器,用于将词编码网络输出的所有文本中每段文本的句子向量集输入句子编码网络,得到所有文本中每段文本的文档向量;
解码网络包括依次串联的句子重要性排序模块、GRU句子层解码器、GRU词层解码器以及解码生成模块;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010714359.0/2.html,转载请声明来源钻瓜专利网。