[发明专利]一种基于实体关系联合抽取模型的多三元组抽取方法有效
申请号: | 201810993387.3 | 申请日: | 2018-08-29 |
公开(公告)号: | CN109165385B | 公开(公告)日: | 2022-08-09 |
发明(设计)人: | 赵翔;谭真;郭爱博;葛斌;郭得科;肖卫东;唐九阳;黄旭倩 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F16/36;G06N3/04 |
代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 马骁;于洁 |
地址: | 410003*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 实体 关系 联合 抽取 模型 三元 方法 | ||
本发明公开了一种基于实体关系联合抽取模型的多三元组抽取方法,其特征在于包括步骤:获取文本,对目标文本进行分句处理,并对句子中的每个单词进行位置、类型、是否涉及关系标记;建立实体关系联合抽取模型;对实体关系联合抽取模型进行训练;根据实体关系联合抽取模型进行三元组抽取;本发明设计的三部分标记方案,在实体关系联合抽取的过程中能够排除与目标关系不相关的实体;此外,本发明一种基于实体关系联合抽取模型的多三元组抽取方法可以用来抽取多三元组,并且基于本发明三元组抽取方法的模型与其它模型相比有更强的多三元组抽取能力。
技术领域
本发明涉及文本处理技术领域,特别是指一种基于实体关系联合抽取模型的多三元组抽取方法。
背景技术
三元组抽取得到结构化的信息(同时抽取两个实体和他们之间的关系)来自非结构化的文本,这是自动知识库构建的一个关键步骤,传统的模型分别使用命名实体识别(NER)和关系分类(RC)抽取实体和关系,产生最后的三元组。这种模块化的方法不能充分捕捉和利用NER和RC的任务之间的相关性,并容易级联错误。
为了克服这些缺点,有人提出了联合抽取模型。他们中的大多数是特征结构模型,这需要过多的人工干预和监督的自然语言处理工具来构建多元化、复杂化的特征。最近,已经提出了一些神经网络模型来联合抽取实体和关系。郑先生等人利用双向长短期记忆网络(Bi-LSTM)来学习联合的隐藏特征,然后用长短期记忆网络(LSTM)抽取实体,用卷积神经网络(CNN)抽取关系;Miwa和Bansal用一个端到端的模型抽取的实体,依赖树用来确定关系。这两个模型首先识别实体,然后为每一对可能抽取的实体选择一个语义关系,在这种情况下,RC分类器的精度相对较低,但召回率较高,因为它被许多属于其他种类的对所误导;同时,有些模型只能抽取出有限的目标关系。郑先生等人把联合抽取问题转化成标注问题,用一个统一的标注方案标注实体和关系标签,利用端到端的模型来解决这个问题;然而,在这个模型中,每一个实体在每个句子中都被限制只涉及一个关系。Katiyar和Cardie也用Bi-LSTM抽取实体,并添加一个注意力机制抽取关系,该模型假定一个实体只能与句子中的一个前置实体相关,这两个模型(部分)忽略了与一个实体相关联的多个关系;在这种情况下,RC任务执行的精度相对较高,但召回率较低,因为RC的候选范围是有限的
因此,现有的联合模型不仅在不实用的约束下抽取有限的关系(一句话中只有一个关系,一个实体只关联到一个前置实体),或简单地产生太多的候选人进行RC分类(所有可能的实体对关系)。深入的调查表明,主要原因在于他们忽视多三元组的影响,这在现存的大型语料库中很常见。另一方面,模型认为,每一个实体对都有某一种关系,在这种情况下,大量的对需要被扔到一个叫做“其他”的类中,但是“其他”的特性在分类器训练中没有学到,因此,非预期的关系混淆了分类器,从而可能无法正确地检测/选择多三元组的目标关系。
发明内容
有鉴于此,本发明的目的在于提出一种基于实体关系联合抽取模型的多三元组抽取方法,用于对句子中的多三元组进行有效抽取。
基于上述目的本发明提供的一种基于实体关系联合抽取模型的多三元组抽取方法,其特征在于包括以下步骤:
获取文本,对目标文本进行分句处理,并对句子中的每个单词进行标记;
建立实体关系联合抽取模型;
对所述实体关系联合抽取模型进行训练;
根据所述实体关系联合抽取模型进行三元组抽取。
所述对句子中的每个单词进行标记包括对句子中的每个单词进行位置、类型、是否涉及关系三部分进行标记。
所述关系抽取模型包括用于将具有单一语义特征(1-hot)表示的单词转换为嵌入向量的嵌入层、用于对输入句子进行编码的Bi-LSTM层和用于解码的CRF层。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810993387.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种命名实体识别方法及装置
- 下一篇:一种中文零代词消解方法及系统