[发明专利]一种关系抽取方法及装置在审
申请号: | 202011112491.0 | 申请日: | 2020-10-16 |
公开(公告)号: | CN114386411A | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 毛璐;李长亮;汪美玲 | 申请(专利权)人: | 北京金山数字娱乐科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/289;G06F40/30;G06F16/28 |
代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 刘晓楠 |
地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 关系 抽取 方法 装置 | ||
本申请提供一种关系抽取方法及装置,其中所述关系抽取方法包括:获取待处理文本;将所述待处理文本输入至关系抽取模型进行处理,获取所述关系抽取模型输出的目标元组,其中,所述关系抽取模型由初始训练样本集合训练获得;在接收到修订指令的情况下,基于所述修订指令生成修订元组;根据所述待处理文本和所述修订元组生成训练样本对,将所述训练样本对添加到所述初始训练样本集合中对所述关系抽取模型继续训练。通过本申请提供的关系抽取方法,可以在极少量的启动数据的情况下训练生成关系抽取模型,对于关系抽取模型获取的不符合要求的目标元组进行修正,将修订元组和待处理文本对关系抽取模型进行增量学习训练,提高关系抽取模型的准确度。
技术领域
本申请涉及自然语言技术领域,特别涉及一种关系抽取方法及装置、计算设备和计算机可读存储介质。
背景技术
关系抽取是从文本中提取语义关系的一种方法,在知识库、问答、文摘等自然语言处理应用中具有重要意义,关系抽取通常发生在两个特定类型的实体之间。
关系抽取通常作为知识图谱构建的重要组成部分而受到广泛关注,一般基于深度学习的关系抽取方法往往需要大规模高质量的标注数据,基于规则的关系抽取方法则需要耗费大量的人工成本,远程监督方法面临伪标签的问题,普通的自助法则依赖多次重复出现的关系且要求关系元组一致,以上几种方法均不适用于标注数据匮乏、关系元组稀疏,同时对关系抽取的准确率要求极高的领域,如政务领域、医学领域、人事任免领域等,由于特定领域要求关系抽取的准确率极高,因此人工干预必不可少,因此带来的人工成本也不可忽视。
因此,如何解决在标注数据匮乏的情况下,提高关系抽取的效率和准确度,尽可能的降低人工成本,就成为技术人员亟待解决的问题。
发明内容
有鉴于此,本申请实施例提供了一种关系抽取方法及装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本申请实施例的第一方面,提供了一种关系抽取方法,包括:
获取待处理文本;
将所述待处理文本输入至关系抽取模型进行处理,获取所述关系抽取模型输出的目标元组,其中,所述关系抽取模型由初始训练样本集合训练获得;
在接收到修订指令的情况下,基于所述修订指令生成修订元组;
根据所述待处理文本和所述修订元组生成训练样本对,将所述训练样本对添加到所述初始训练样本集合中对所述关系抽取模型继续训练。
可选的,在将所述待处理文本输入至关系抽取模型进行处理之后,还包括:
所述关系抽取模型响应于输入的所述待处理文本生成所述待处理文本对应的目标元组。
可选的,所述关系抽取模型响应于输入的所述待处理文本生成所述待处理文本对应的目标元组,包括:
对所述待处理文本做实体识别和词性标注,确定所述待处理文本对应的实体序列;
根据所述实体序列生成所述待处理文本对应的目标元组。
可选的,对所述待处理文本做实体识别和词性标注,确定所述待处理文本对应的实体序列,包括:
对所述待处理文本做分词处理,获得所述待处理文本对应的词单元集合;
对所述词单元集合做实体识别和词性标注处理,获得对应的实体序列。
可选的,根据所述实体序列生成所述待处理文本对应的目标元组,包括:
将所述实体序列遍历存储的模板对集合,确定目标模板对;
基于目标模板对对所述待处理文本进行关系抽取,获得所述目标模板对对应的目标元组。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山数字娱乐科技有限公司,未经北京金山数字娱乐科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011112491.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:半导体结构及其形成方法
- 下一篇:基站及清洁系统