[发明专利]一种关系抽取方法及装置在审
申请号: | 202011112491.0 | 申请日: | 2020-10-16 |
公开(公告)号: | CN114386411A | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 毛璐;李长亮;汪美玲 | 申请(专利权)人: | 北京金山数字娱乐科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/289;G06F40/30;G06F16/28 |
代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 刘晓楠 |
地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 关系 抽取 方法 装置 | ||
1.一种关系抽取方法,其特征在于,包括:
获取待处理文本;
将所述待处理文本输入至关系抽取模型进行处理,获取所述关系抽取模型输出的目标元组,其中,所述关系抽取模型由初始训练样本集合训练获得;
在接收到修订指令的情况下,基于所述修订指令生成修订元组;
根据所述待处理文本和所述修订元组生成训练样本对,将所述训练样本对添加到所述初始训练样本集合中对所述关系抽取模型继续训练。
2.如权利要求1所述的关系抽取方法,其特征在于,在将所述待处理文本输入至关系抽取模型进行处理之后,还包括:
所述关系抽取模型响应于输入的所述待处理文本生成所述待处理文本对应的目标元组。
3.如权利要求2所述的关系抽取方法,其特征在于,所述关系抽取模型响应于输入的所述待处理文本生成所述待处理文本对应的目标元组,包括:
对所述待处理文本做实体识别和词性标注,确定所述待处理文本对应的实体序列;
根据所述实体序列生成所述待处理文本对应的目标元组。
4.如权利要求3所述的关系抽取方法,其特征在于,对所述待处理文本做实体识别和词性标注,确定所述待处理文本对应的实体序列,包括:
对所述待处理文本做分词处理,获得所述待处理文本对应的词单元集合;
对所述词单元集合做实体识别和词性标注处理,获得对应的实体序列。
5.如权利要求3所述的关系抽取方法,其特征在于,根据所述实体序列生成所述待处理文本对应的目标元组,包括:
将所述实体序列遍历存储的模板对集合,确定目标模板对;
基于目标模板对对所述待处理文本进行关系抽取,获得所述目标模板对对应的目标元组。
6.如权利要求1所述的关系抽取方法,其特征在于,所述初始训练样本集合中的训练样本为训练文本和所述训练文本对应的二元组,其中所述二元组中包括实体对;
所述关系抽取模型由初始训练样本集合训练获得,包括:
对所述训练文本进行实体识别和词性标注,确定所述训练文本对应的训练实体序列;
根据所述实体对和所述训练实体序列生成所述训练文本对应的词语模板;
根据所述词语模板确定所述训练文本对应的词性模板。
将所述词语模板和所述词性模板对应保存。
7.如权利要求6所述的关系抽取方法,其特征在于,所述实体对包括头实体和尾实体;
根据所述实体对和所述训练实体序列生成所述训练文本对应的词语模板,包括:
确定所述头实体对应的头实体标识和所述尾实体对应的尾实体标识在所述训练实体序列中的头实体位置和尾实体位置;
基于所述头实体位置和所述尾实体位置在所述训练实体序列中确定词语模板。
8.如权利要求6所述的关系抽取方法,其特征在于,根据所述词语模板确定所述训练文本对应的词性模板,包括:
将所述词语模板中除去所述头实体标识和所述尾实体标识的词替换为对应的词性,生成所述训练文本对应的词性模板。
9.如权利要求1所述的关系抽取方法,其特征在于,所述方法还包括:
在接收到保存指令的情况下,基于所述保存指令保存所述目标元组。
10.一种关系抽取装置,其特征在于,包括:
获取模块,被配置为获取待处理文本;
抽取模块,被配置为将所述待处理文本输入至关系抽取模型进行处理,获取所述关系抽取模型输出的目标元组,其中,所述关系抽取模型由初始训练样本集合训练获得;
接收模块,被配置为在接收到修订指令的情况下,基于所述修订指令生成修订元组;
继续训练模块,被配置为根据所述待处理文本和所述修订元组生成训练样本对,将所述训练样本对添加到所述初始训练样本集合中对所述关系抽取模型继续训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山数字娱乐科技有限公司,未经北京金山数字娱乐科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011112491.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:半导体结构及其形成方法
- 下一篇:基站及清洁系统