[发明专利]摘要生成方法、装置、电子设备及存储介质在审
申请号: | 202010993704.9 | 申请日: | 2020-09-21 |
公开(公告)号: | CN112148871A | 公开(公告)日: | 2020-12-29 |
发明(设计)人: | 吴文浩;李伟;肖欣延 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/36;G06F40/126;G06F40/30 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 谷春静 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 摘要 生成 方法 装置 电子设备 存储 介质 | ||
本申请公开了摘要生成方法、装置、电子设备及存储介质,涉及自然语言处理、深度学习及知识图谱领域,其中的方法可包括:获取待处理文本对应的知识图,知识图中的结点表示待处理文本中的语义概念,知识图中的边表示语义概念间的语义关系;对待处理文本进行词级别的编码,得到各词的上下文编码表示;根据各词的上下文编码表示,分别确定出知识图中的各结点的初始表示;根据各结点的初始表示以及各结点间的连接关系进行编码,得到各结点的结点表示;根据各结点的结点表示进行解码,得到待处理文本的摘要。应用本申请所述方案,可提升生成的摘要的语义连贯性和准确性等。
技术领域
本申请涉及计算机应用技术,特别涉及自然语言处理、深度学习及知识图谱领域的摘要生成方法、装置、电子设备及存储介质。
背景技术
自动摘要技术,即指为一个或多个主题相关的文本(文档)自动生成一份摘要。在信息爆炸的今天,自动摘要技术可为读者提供简洁而重要的摘要信息,从而极大地节省读者的阅读时间以提高信息获取效率等。
目前比较常用的自动摘要方法包括抽取式方法和生成式方法。其中,抽取式方法是指从文本中抽取出多个重要的句子组合成一份摘要。生成式方法通常采用端到端生成式架构,先利用解码器将文本信息映射到高维向量,再利用解码器从高维向量中解码生成摘要。
但抽取式方法抽取的句子之间常常缺乏语义连贯性,准确性也较差。另外,生成式方法并未像人类一样真正的理解文本中的语义,生成的摘要的准确性也较差。
发明内容
有鉴于此,本申请提供了摘要生成方法、装置、电子设备及存储介质。
一种摘要生成方法,包括:
获取待处理文本对应的知识图,所述知识图中的结点表示所述待处理文本中的语义概念,所述知识图中的边表示语义概念间的语义关系;
对所述待处理文本进行词级别的编码,得到各词的上下文编码表示;
根据各词的上下文编码表示,分别确定出所述知识图中的各结点的初始表示;
根据各结点的初始表示以及各结点间的连接关系进行编码,得到各结点的结点表示;
根据各结点的结点表示进行解码,得到所述待处理文本的摘要。
一种摘要生成装置,包括:图解析模块、词编码模块、融合模块、图编码模块以及图解码模块;
所述图解析模块,用于获取待处理文本对应的知识图,所述知识图中的结点表示所述待处理文本中的语义概念,所述知识图中的边表示语义概念间的语义关系;
所述词编码模块,用于对所述待处理文本进行词级别的编码,得到各词的上下文编码表示;
所述融合模块,用于根据各词的上下文编码表示,分别确定出所述知识图中的各结点的初始表示;
所述图编码模块,用于根据各结点的初始表示以及各结点间的连接关系进行编码,得到各结点的结点表示;
所述图解码模块,用于根据各结点的结点表示进行解码,得到所述待处理文本的摘要。
一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如以上所述的方法。
一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如以上所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010993704.9/2.html,转载请声明来源钻瓜专利网。