[发明专利]一种关系提取方法、装置、及存储介质有效
申请号: | 201911088380.8 | 申请日: | 2019-11-08 |
公开(公告)号: | CN110852107B | 公开(公告)日: | 2023-05-05 |
发明(设计)人: | 苑世娇;荆小兵;牟小锋 | 申请(专利权)人: | 北京明略软件系统有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 戴仕琴;栗若木 |
地址: | 100084 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 关系 提取 方法 装置 存储 介质 | ||
1.一种关系提取方法,其特征在于,包括:
识别目标文本中的实体对;
获取所述目标文本的预定向量,将所获取的预定向量输入预先训练好的关系抽取模型得到关系标签;所述关系抽取模型的训练数据采用如下方式获得:从获取的样本数据中筛选出含有远程监督关系库中的实体对的样本数据,并把远程监督关系库中的关系映射到样本数据中后获得;
根据所得到的关系标签确定所识别的实体对的关系;
所述关系抽取模型采用如下步骤获得:
连接远程监督关系库,所述远程监督关系库记录了多个实体对及实体对的关系组成的关系三元组;
对采集的样本数据中含有所述远程监督关系库中的实体对的样本数据用所述关系库中的关系标签进行标注,获得带关系标签的样本数据;
采用带关系标签的样本数据对关系抽取模型的参数进行训练;
所述根据所得到的关系标签确定所识别的实体对的关系后还包括:根据所得到的关系标签形成关系三元组;当一个抽取单元中获得的关系三元组包括多个时,按照关系三元组中关系标签的概率从高到低的顺序进行如下分析:当分析到第一关系三元组中的第一实体与第二实体的指定关系具有属于唯一属性关系时,将所述关系三元组对应的关系标签确定为正确的关系标签;筛选掉已确定关系标签正确的关系三元组,在剩余的关系三元组中,如果存在第二关系三元组中的第一实体和第三实体的所述指定关系具有唯一属性关系时,则确定第二关系三元组对应的关系标签错误;
或者,
所述根据所得到的关系标签确定所识别的实体对的关系后还包括:根据所得到的关系标签形成关系三元组;当一个抽取单元中获得的关系三元组包括多个时,按照关系三元组中关系标签的概率从高到低的顺序进行如下分析:当已存在第一关系三元组中的第一实体和第二实体为指定关系中不同层级的关系,第二关系三元组中的所述第一实体与第三实体为所述指定关系中同层级关系时,如果第三关系三元组中的所述第二实体与第三实体为所述指定关系中同层级关系时,则确定第三关系三元组对应的关系标签错误。
2.如权利要求1所述的方法,其特征在于,所述获取所述目标文本的预定向量,包括:
将目标文本划分为多个抽取单元;分别对每个抽取单元进行如下操作:
进行分词,得到该抽取单元的多个分词;所述多个分词包括所述实体对;
将所得到的多个分词分别进行向量化,获取每个分词的预定向量;
将所述抽取单元中所有分词的预定向量进行拼接得到所述抽取单元的预定向量。
3.如权利要求2所述的方法,其特征在于,所述预定向量包括文本向量、位置向量、及词性向量;
所述将所述多个分词分别进行向量化,获取每个分词的预定向量;将所述抽取单元中所有分词的预定向量进行拼接,得到所述抽取单元的预定向量,包括:
将每个所述分词分别进行文本向量化得到文本向量d;将每个所述分词分别相对于所述实体对中的每个实体的相对位置进行向量化得到第一位置向量d1和第二位置向量d2;将每个所述分词分别进行词性向量化得到词性向量d3;
获得所述抽取单元中每个分词的向量表达式:xi=[di,di1,di2,di3]T;其中i表示所述分词的排序;
将所述抽取单元中所有分词的向量拼接得到所述抽取单元的向量矩阵,表示为:X=[x1,x2,…,xi,…]T;该矩阵的维度表示为X∈RL×d,L为分词形式下句子长度,所述句子为抽取单元,d为分词的向量维度,R表示为实数矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911088380.8/1.html,转载请声明来源钻瓜专利网。