[发明专利]基于图神经网络的中文开放信息抽取方法和装置在审
申请号: | 202110882753.X | 申请日: | 2021-08-02 |
公开(公告)号: | CN113705196A | 公开(公告)日: | 2021-11-26 |
发明(设计)人: | 侯磊;吕志亨;李涓子;张鹏;唐杰;许斌 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/216;G06F40/253;G06N3/04 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 程琛 |
地址: | 100084 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 神经网络 中文 开放 信息 抽取 方法 装置 | ||
本发明提供一种基于图神经网络的中文开放信息抽取方法和装置,包括:将待测中文语句文本输入谓语抽取模型,输出谓语结果;谓语抽取模型是基于样本中文语句文本和谓语标签进行训练得到的,谓语抽取模型训练时的网络结构包括顺次连接的嵌入词性的字符上下文表示网络、第一多粒度依存图字符表示神经网络和谓语区间分类网络;将谓语结果和待测中文语句文本输入主宾抽取模型,输出主语结果和宾语结果;主宾抽取模型是基于样本中文语句文本和主谓宾三元组标签进行训练得到的,主宾抽取模型训练时的网络结构与谓语抽取模型架构相同。本发明提供的方法和装置,实现了融合分词和依存句法信息,提高了抽取开放的事实主谓宾知识三元组的准确率。
技术领域
本发明涉及信息抽取技术领域,尤其涉及一种基于图神经网络的中文开放信息抽取方法和装置。
背景技术
开放信息抽取是自然语言处理领域的一个重要任务,其目的是从无结构化的文本中抽取出半结构化的事实知识。相比于传统的模式(schema)限定的关系抽取,开放信息抽取不限制关系类别,因此能够从文本中抽取更丰富的事实知识。开放信息抽取能够用于很多下游任务,如使用开放的事实三元组进行知识库构建,用于搜索引擎返回搜索结果,以及构建文档知识图来帮助文档摘要等。
传统的开放信息抽取系统大多是基于句法模式和启发式规则。例如,英文开放信息抽取系统ReVerb、ClausIE、OpenIE4以及中文系统CORE、ZORE等,都是利用外部的自然语言处理工具来得到句子的词性标签或依存句法特征,之后生成词性或依存句法模式来抽取事实知识元组。这些系统中所使用的句法模式仅能用于特定语言,难以扩展到其他语言。另外,这些基于模式的系统难以处理复杂的句子以及自然语言多样的表达,在工业场景下难以达到实用水平。
最近,研究人员尝试把神经网络模型应用到开放信息抽取任务上,来解决基于句法模式的系统的局限性。神经网络开放信息抽取模型可以分为两大类:序列生成和区间筛选。序列生成模型,如Neural Open IE、Logician、IMOJIE等,使用编码器-解码器框架从输入句子中直接生成事实知识元组。区间筛选模型,如RnnOIE、SpanOIE等,从句子中选择区间作为谓语、主语、宾语等。SpanOIE采用候选区间分类的方法来得到谓语及对应的主语和宾语,最终组合得到事实知识元组。
之前的序列生成模型和区间筛选模型大多是单词级别的,在中文上会造成分词错误的传递。例如,在句子“A国外交部长/B/率/团/访问/C国”中,单词“A国”和“外交部长”被错误地切分为了一个单词“A国外交部长”,这会导致单词级别的模型无法提取出另一组事实主谓宾知识三元组(A国,外交部长,B)。
事实证明,依存句法知识有利于许多信息抽取任务,如语义角色标注和关系抽取等。然而,现有的神经开放信息抽取模型通常以比较浅层次的方式来整合依存句法信息。例如,SpanOIE把单词的依存标签嵌入和词嵌入拼接起来,共同作为句子编码器的输入。这种做法忽略了依存句法树的拓扑结构信息,难以捕获关系和实体之间在依存树上的多跳依赖。
因此,如何避免现有的中文信息抽取技术中由于分词错误的传递,以及缺乏依存句法树的拓扑结构,难以捕获多跳依赖造成的事实主谓宾三元组的提取错误,仍然是本领域技术人员亟待解决的问题。
发明内容
本发明提供一种基于图神经网络的中文开放信息抽取方法和装置,用以解决现有的中文信息抽取技术中由于分词错误的传递,缺乏依存句法树的拓扑结构,以及难以捕获多跳依赖造成的事实主谓宾三元组的提取错误的问题。
本发明提供一种基于图神经网络的中文开放信息抽取方法,包括:
确定待抽取主谓宾三元组信息的待测中文语句文本;
将所述待测中文语句文本输入谓语抽取模型,输出对应的谓语结果;其中,所述谓语抽取模型是基于样本中文语句文本和对应的谓语标签进行训练得到的,所述谓语抽取模型训练时的网络结构包括顺次连接的嵌入词性的字符上下文表示网络、第一多粒度依存图字符表示神经网络和谓语区间分类网络;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110882753.X/2.html,转载请声明来源钻瓜专利网。