[发明专利]自然语言生成方法和装置有效
申请号: | 202010297512.4 | 申请日: | 2020-04-15 |
公开(公告)号: | CN111507070B | 公开(公告)日: | 2023-08-01 |
发明(设计)人: | 俞凯;赵晏彬 | 申请(专利权)人: | 思必驰科技股份有限公司 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/35;G06N3/042;G06N3/0455;G06N3/08 |
代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 黄谦;邓婷婷 |
地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自然语言 生成 方法 装置 | ||
本发明公开一种自然语言生成方法和装置,其中,方法包括:接收AMR图以及与所述AMR图对应的线图,将所述AMR图和所述线图作为编码器的输入;在所述编码器中,使用图神经网络对所述AMR图和所述线图分别进行编码,其中,在使用所述图神经网络编码的过程中融入所述AMR图的高阶邻接信息,所述高阶邻接信息的阶数大于1;编码完成后,使用解码器解析出与所述AMR图对应的自然语言中的每一个词。本申请实施例的方案由于在编码时,非直接相邻节点之间的关系在编码时也会被考虑其中,使得模型可以更好地发掘AMR图中的信息。
技术领域
本发明属于自然语言生成技术领域,尤其涉及自然语言生成方法和装置。
背景技术
现有技术中,抽象语义表示(AMR,Abstract Meaning Representation)是一种句子级别的语义表示,用于结构化地描述一个句子中蕴含的语义。AMR是以图的结构存储在计算机中的,其中,图的每个节点表示一个语义概念,而图中的边表示语义概念之间的关系。图1展示了一个AMR图(抽象语义表示示意图),而它反映的就是语句“He runs as fast asthe wind”的语义。
抽象语义文本生成任务是将这种高度抽象化和结构化的语义图表示还原为相对应的自然语言。这是一个典型的“图到序列”的自然语言生成任务,可以广泛地应用在智能对话系统当中。针对这个任务目前流行的有三种做法:
1)基于规则的序列生成模型;
2)基于传统循环神经网络的“序列到序列(Seq2Seq)”模型;
3)基于图神经网络的“图到序列(Graph2Seq)”模型。
其中,基于规则的序列生成模型是一种较为直接的生成方式,这种系统充分考虑图中各个节点之间的多种关系,通过构造大量的规则将其映射为对应的自然语言。基于循环神经网络的Seq2Seq模型借鉴了神经机器翻译思想,采用了编码器—解码器(Encoder-Decoder)结构。首先通过编码器将AMR进行编码,再通过对应的解码器解析出对应的自然语言。通过大量的平行语料数据对神经网络进行训练来拟合出合适的映射函数。但是由于在这项任务中,神经网络的输入是一个图结构的AMR,并非是一个序列,因此需要通过一些手段将图进行序列化,然后进行进一步的训练。基于图神经网络的Graph2Seq模型是近年来兴起的新模型。它同样采用了编码器—解码器结构,不过不同的是在编码器段使用图神经网络直接对AMR图结构进行编码,从而省略的序列化的过程
发明人在实现本申请的过程中发现,现有技术的方案主要存在以下缺陷:
对于规则型模型来说,由于自然语言的复杂性和多样性,规则往往不能涵盖所有模式。还原出的自然语言往往比较生硬,很多时候丧失语言的流畅性。目前,基于规则的系统已经逐渐被淘汰。
基于神经网络的Seq2Seq模型需要将图序列化后再进行编码,然而,将图序列化意味着图中结构信息的丢失,无法对图中信息进行有效的编码。从而使得效果大打折扣。
而基于图神经网络的Graph2Seq模型虽然可以很好地保留图的结构信息。然而现有的图神经网络模型仍然存在两点问题:a.当前的图神经网络结构往往只考虑了相邻节点之间的关系,而忽略了更高阶的图邻接关系;b.当前图编码器只考虑了图中节点之间的关系,而忽略的边之间的相互关系。这两个缺点使得模型无法发掘更多的图信息,在图变得更大、更复杂时,模型的性能会大大降低。
发明内容
本发明实施例提供一种自然语言生成方法和装置,用于至少解决上述技术问题之一。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思必驰科技股份有限公司,未经思必驰科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010297512.4/2.html,转载请声明来源钻瓜专利网。