[发明专利]一种基于对抗训练机制的多语言实体关系抽取方法及系统有效
申请号: | 201810827459.7 | 申请日: | 2018-07-25 |
公开(公告)号: | CN110852066B | 公开(公告)日: | 2021-06-01 |
发明(设计)人: | 刘知远;王晓智;韩旭;林衍凯;孙茂松 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06N5/02;G06N3/04 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹;吴欢燕 |
地址: | 100084 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 对抗 训练 机制 语言 实体 关系 抽取 方法 系统 | ||
本发明提供的一种基于对抗训练机制的多语言实体关系抽取方法及系统,将目标实体对相关的各语言中的目标句子分别编码到各语言对应的独立语义空间和所有语言对应的一致性语义空间,获得目标句子中蕴含的各语言独立的信息和跨语言的一致的信息;再分别采用各语言独立的注意力机制和各语言间一致的注意力机制衡量每个目标句子相对各关系类型的注意力权重,最终结合所有目标句子相对各关系类型的注意力权重获得各关系类型对应的全局概率,从各关系类型对应的全局概率中选取出最大概率,最终即可根据最大概率对应的关系类型预测目标实体对之间的关系。该方法及系统能够深层地利用多语言间的互补性,有效提高了多语言场景下的关系抽取结果的准确性。
技术领域
本发明涉及信息处理技术领域,更具体地,涉及一种基于对抗训练机制的多语言实体关系抽取方法及系统。
背景技术
知识图谱,某些场景下也被称为知识库,是一种将现实世界中人类的知识结构化之后形成的知识系统。在知识图谱中,大量的知识,诸如开放数据库和百科全书中的信息,通常以关系数据集合的形式被表达出来。而在关系数据集合中,基本事实被抽象为实体,而规则、逻辑、推理等关联性的信息则被抽象为实体间的关系。若将实体对应于点,关系对应于边,则这些知识可以进一步以图的形式呈现,从而可以被计算机高效的使用,而这也是研究知识图谱的意义所在。这种将实体和抽象概念结构化成多关系数据集合的模式也是近年来被大力提倡的。可以说,知识图谱使得我们接触到的信息,尤其是知识信息,突破了以往文本字符串中基本的线性构成形式,而以实体与关系构成的网络状形式存在。
目前知识图谱已经作为人工智能领域的一项基础核心技术,被广泛引入到信息检索、问答系统、推荐系统等任务上。图谱中优质的结构化知识信息,能够指导我们的智能模型具备更深层的事物理解、更精准的任务查询以及一定程度上的逻辑推理能力,从而在这些知识驱动应用中起到至关重要的作用。
虽然已有的知识图谱包含了上亿个事实,相比于无尽的现实世界,它们仍然远远没有完善。为了进一步扩大知识图谱的规模,自动地从海量的文本数据中抓取到新的关系事实,就需要进行关系抽取。关系抽取的任务是从自由文本中自动提取特征,对于在文本中出现的实体对自动判别它们之间存在的关系,从而为知识图谱自动扩展新的边,丰富知识图谱的内容。
然而,目前绝大多数的关系抽取方法仅仅关注在单语言场景下的关系抽取问题,即训练数据和应用中都只考虑仅有一种语言的情况。这类模型忽略了不同语言之间潜在的互补性和一致性。在如今的大数据时代,信息的来源多种多样,从互联网中得到的待进行关系抽取的海量自由文本资源常常是多语言的。现有的针对单语言场景的关系抽取模型在多语言的实际应用场景下往往难以取得更好的表现。
有鉴于此,亟需提供一种适用于多语言场景的关系抽取方法及系统。
发明内容
本发明为了克服现有的针对单语言场景的关系抽取模型在多语言的实际应用场景下往往难以取得更好的表现的问题,提供一种基于对抗训练机制的多语言实体关系抽取方法及系统。
一方面,本发明提供一种基于对抗训练机制的多语言实体关系抽取方法,包括:
对于多种语言中的任意一种语言,在该语言中获取预设数量的与目标实体对相关的句子,作为目标句子,并构建每个目标句子在该语言对应的独立语义空间中的第一句子向量表示以及在一致性语义空间中的第二句子向量表示;
预设多个关系类型,对于任意一个关系类型,构建该关系类型在该语言对应的独立语义空间中的第一关系向量表示,根据第一关系向量表示和该语言中所有目标句子的第一句子向量表示获得目标实体对相对该关系类型在该语言对应的独立语义空间中的第一全局向量表示;
构建该关系类型在一致性语义空间中的第二关系向量表示,根据第二关系向量表示和所有语言中所有目标句子的第二句子向量表示获得目标实体对相对该关系类型在一致性语义空间中的第二全局向量表示;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810827459.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:USB接口连接装置
- 下一篇:目标语句提取方法、问题生成方法以及信息处理设备