[发明专利]一种结合语义和文本结构进行生成式摘要抽取的文本生成方法有效
申请号: | 201911393590.8 | 申请日: | 2019-12-30 |
公开(公告)号: | CN111178053B | 公开(公告)日: | 2023-07-28 |
发明(设计)人: | 任利;李清;贾海涛;贾宇明;李建;许文波;罗心;刘芳 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F40/253 | 分类号: | G06F40/253;G06F40/30;G06F40/258 |
代理公司: | 电子科技大学专利中心 51203 | 代理人: | 邹裕蓉 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结合 语义 文本 结构 进行 生成 摘要 抽取 方法 | ||
本发明提出一种结合语义和文本结构进行生成式摘要抽取的文本生成方法,考虑到中文语言结构上的特殊性,将文本结构和文本语义作为网络输入,从而考虑文本的语义和结构两个方面的内容,然后通过编码网络中的编码将语义和结构两方面的数据进行编码和融合,然后利用解码网络进行结果输出。本发明将文本结构也作为元素提高了编码网络获取文本信息的能力;加入了注意力机制提高了解码网络的解码能力。
技术领域
本发明属于文本生成技术,具体涉及一种结合语义和文本结构的生成式摘要抽取技术。
背景技术
目前,互联网正处于高速发展时期,网络信息也出现了爆炸式增长的情况。随着各种移动终端设备的流斤,人们逐渐摒弃了纯手工文本,开始频繁使用电子文本进行工作、记录和交流等,尤其依赖于从网络上获取有效的信息资源。然而,网络环境中的信息资源数量极其庞大,杂乱无章,如何使得人们可快速、准确地从网络上获取有用的信息,是目前正在被积极研究的一个热点领域。自动文本摘要(简称自动文摘)技术作为该研究领域的一个重要分支,可从海量文本中提取出简短的关键信息来帮助人们快速理解原来的文本内容,有效节省了人们获取有用信息的时间和精力。近年来,自动文摘系统作为一个有力的辅助工具,在各个领域发挥了作用,包括网络信息检索、新闻、邮件和会议记录等,成功地帮助了人们更加快速高效的方式获取了他们想要的信息。
文本自动摘要是一个既传统又前沿的研究领域。自20世纪50年代自动摘要技术出现以来,每出现一波新技术浪潮,都会涌现出一大批相应的自动摘要新方法,然而效果一直与人工摘要有差距。在互联网大数据时代,文本信息的数量已经远远超出了人工处理的极限,自动摘要研究显得越发迫切和重要。深度学习方法在相关领域的出色表现,让研究人员看到了一丝曙光。但传统经典方法对深度学习方法仍有帮助作用。实际上自动摘要方法发展历程也印证了这一点,即,某些经典的文档特征和理念,无论是对于传统旧方法,还是对新兴方法,都极为有用,最出色的方法通常是结合了新旧理念的方法。研究的文本摘要在海量数据的信息提取中显得非常重要,减少文本冗余程度使得文本信息更利于人类进行信息的提取。
文本摘要通常是指从单个或多个文档中产生一段文本,该文本传达了原始文本中的主要信息,但是仅有不到原始文本一半甚至更少的篇幅。文本自动摘要是利用计算机生成文本摘要的理论方法和技术。自动文本摘要问题按照文档数量可分为单文档摘要和多文档摘要问题。其中单文挡摘要是为单个文挡形成摘要,类似于文章标题,将文章中最重要的内容压缩的形式呈现出来。多文档摘要则是为多个主题相同或相近的文档产生摘要,有别于单文档摘要,除了需要剔除多份文档中大量的冗余信息之外,还要能够识别出不同文档中的独特内容,使得生成的摘要能够尽可能的简介完整。按照实现方式可分为抽取式和抽象式。其中抽取式摘要通过抽取出原文中己存在的重要句子组成摘要,而抽象式摘要则是通过理解相关语义信息,使用自然语言技术生成新的句子作为摘要。摘要问题的恃点是输出的文本要比输入的文本篇幅小很多,但却蕴藏着非常多的有效信息在内。
目前理解式摘要抽取方法主要是基于深度学习。通过搭建网络,将文本进行预处理以后,将预处理文本输入到网络,网络通过对训练文本的学习,学习到文本的各种特征,得到摘要抽取的具体网络。这种方法在很大程度上依赖于语料库,属于有监督式的深度学习方法。随着深度学习的发展,将神经网络运用在文本的自动摘要方面也越来越受到关注。
目前比较实用的理解式的摘要抽取的方式是seq2seq模型。这类方法的大体思路是将原文本通过encoder网络编码成固定大小的向量表示,然后通过decoder网路将文本的编译信息转换为所需要的文本摘要,通过选择好的训练集对网络进行训练,得到训练完成的网络。随后由于attention思想的提出,在很多方面都有非常良好的效果,所以将attention机制运用在文本的自动摘要上也取得了较好的效果,使得网络在不同序输出时知道该关注的重要文本,由《A Neural Attention Model for Abstractive SentenceSummarization》首先在此方面实现,在自动文本摘要上取得了良好的效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911393590.8/2.html,转载请声明来源钻瓜专利网。