[发明专利]一种文本摘要生成方法和装置有效
申请号: | 201911412244.X | 申请日: | 2019-12-31 |
公开(公告)号: | CN111159394B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 马雄;杨旭川 | 申请(专利权)人: | 重庆觉晓科技有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/258 |
代理公司: | 重庆嘉品知识产权代理事务所(普通合伙) 50302 | 代理人: | 李阳 |
地址: | 401120 重庆市渝北区回兴街道宝圣*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 摘要 生成 方法 装置 | ||
本申请实施例提供一种文本摘要生成方法和装置,以实现快速自动文本摘要,并且摘要文本可读性高,与原文本主本意思一致。所述方法包括:提供包括编码器和解码器的摘要生成模型并进行训练;通过所述解码器接收输入文本和所述编码器输出的原始文本编码;其中,所述输入文本包括开始符和前次输出的摘要文本;通过所述解码器分别确定生成模式概率矩阵、抽取模式概率矩阵和权重矩阵;基于所述生成模式概率矩阵、所述抽取模式概率矩阵和所述权重矩阵,生成参考概率矩阵,所述参考概率矩阵表征词表中每个词的参考概率;基于所述参考概率矩阵的所述参考概率,确定当前摘要文本。
技术领域
本申请涉及文本信息处理技术领域,尤其涉及一种文本摘要生成方法和装置。
背景技术
自动文本摘要是自然语言处理的一个重要研究方向,主要的方法有两大类,一类是抽取式自动摘要,抽取式自动摘要顾名思义,就是以一定的计算方法计算文中每个句子的权重,从原文中寻找与全文中心思想最接近的几个句子,抽取出来作为全文的摘要;另一类是生成式自动摘要,即系统阅读完原文后,在理解整篇文章的意思的基础上,按一定的方法逐词或者逐字生成一段文本来表达原文的中心思想。
发明人在研究中发现,现有技术的方式主要存在如下问题:
生成式摘要虽然能描述原文主体意思,但可读性较差,不同词语常常无意义的重复出现,部分词语之间毫无联系,部分摘要甚至完全无法阅读。
抽取式摘要,通过从目标文本中提取句子来生成文本摘要,但是该方法生成文本摘要的耗时较长,且文本摘要的精度不高,难以描述原文本主体意思。
发明内容
本申请的目的是提供一种文本摘要生成方法和装置,以实现快速自动文本摘要,并且摘要文本可读性高,与原文本主本意思一致。
本申请第一方面,提供一种文本摘要生成方法,包括:
提供包括编码器和解码器的摘要生成模型并进行训练;
通过所述解码器接收输入文本和所述编码器输出的原始文本编码;其中,所述输入文本包括开始符和前次输出的摘要文本;
通过所述解码器分别确定生成模式概率矩阵、抽取模式概率矩阵和权重矩阵;其中,所述生成模式概率矩阵表征词表中每个词的概率,所述抽取模式概率矩阵表征词表中原始文本的每个词被抽取的概率,所述权重矩阵表征所述生成模式概率矩阵在运算中的权重;
基于所述生成模式概率矩阵、所述抽取模式概率矩阵和所述权重矩阵,生成参考概率矩阵,所述参考概率矩阵表征词表中每个词的参考概率;
基于所述参考概率矩阵的所述参考概率,确定当前摘要文本。
可能的实现方式中,所述通过所述解码器分别确定生成模式概率矩阵、抽取模式概率矩阵和权重矩阵,包括:
基于所述输入文本生成第一向量矩阵;
基于所述第一向量矩阵生成第二向量矩阵;其中,所述第二向量矩阵表征所述输入文本中自身之外且在自身前边的词对自身的贡献度;
基于所述第二向量矩阵和所述原始文本编码,生成上下文向量矩阵和贡献度矩阵;其中,所述贡献度矩阵表征所述原始文本的每个词对所述输入文本的每个词的贡献度;
基于所述上下文向量矩阵,生成所述生成模式概率矩阵;
基于所述贡献度矩阵,生成所述抽取模式概率矩阵;
基于所述第一向量矩阵、所述上下文向量矩阵和所述贡献度矩阵,生成所述权重矩阵。
可能的实现方式中,所述基于所述第一向量矩阵生成第二向量矩阵,包括:
将所述第一向量矩阵进行mask self-attention,生成所述第二向量矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆觉晓科技有限公司,未经重庆觉晓科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911412244.X/2.html,转载请声明来源钻瓜专利网。