[发明专利]一种关系提取方法、装置、及存储介质有效
申请号: | 201911088380.8 | 申请日: | 2019-11-08 |
公开(公告)号: | CN110852107B | 公开(公告)日: | 2023-05-05 |
发明(设计)人: | 苑世娇;荆小兵;牟小锋 | 申请(专利权)人: | 北京明略软件系统有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 戴仕琴;栗若木 |
地址: | 100084 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 关系 提取 方法 装置 存储 介质 | ||
一种关系提取方法,包括识别目标文本中的实体对;获取所述目标文本的预定向量,将所获取的预定向量输入预先训练好的关系抽取模型得到关系标签,根据所得到的关系标签确定所识别的实体对的关系。本申请能够节约人工成本,并且能够提高关系抽取的准确度。
技术领域
本文涉及计算机技术,尤指一种关系提取方法、装置、及存储介质。
背景技术
关系提取能够使用户快速检索获取所需信息,因此在知识图谱、智能搜索引擎和自动问答系统中被广泛应用。关系提取的主要目的是针对文本中的实体对及关系进行识别和获取。常用的关系抽取方法包括:无监督的关系抽取算法、有监督的关系抽取算法和远程监督关系抽取算法。
无监督的关系抽取算法不需要标注训练数据,常用于开放领域。但是抽取到的关系需要经过关系列表模板匹配才能输出具体的关系类别,因此抽取准确度在很大程度上依赖关系列表模板的覆盖率。
有监督关系抽取算法识别准确度相对较高,但是需要人工标注的训练数据。远程监督将文本数据关系映射到关系库中,不经过人工标注得到批量的带关系标签的训练数据。但是随着时间、场景的变化,实体之间的关系也会发生改变,因此按照关系库映射会产生错误的关系标签。
发明内容
本申请提供了一种关系提取方法、装置、及存储介质,能够达到节约时间和人工,并且能够提高关系抽取的准确度的目标。
本申请提供了一种关系提取方法,包括识别目标文本中的实体对;获取所述目标文本的预定向量,将所获取的预定向量输入预先训练好的关系抽取模型得到关系标签;所述关系抽取模型的训练数据采用如下方式获得:从获取的样本数据中筛选出含有远程监督关系库中的实体对的样本数据,并把远程监督关系库中的关系映射到样本数据中后获得;根据所得到的关系标签确定所识别的实体对的关系。
在一个示例性实施例中,上述获取所述目标文本的预定向量,包括:将目标文本划分为多个抽取单元;分别对每个抽取单元进行如下操作:进行分词,得到该抽取单元的多个分词;所述多个分词包括所述实体对中的第一实体和第二实体;将所得到的多个分词分别进行向量化,获取每个分词的预定向量;将所述抽取单元中所有分词的预定向量进行拼接得到所述抽取单元的预定向量。
在一个示例性实施例中,上述预定向量包括文本向量、位置向量、及词性向量;所述将所述多个分词分别进行向量化,获取每个分词的预定向量;将所述抽取单元中所有分词的预定向量进行拼接,得到所述抽取单元的预定向量,包括:将每个所述分词分别进行文本向量化得到文本向量d;将每个所述分词分别相对于所述实体对中的每个实体的相对位置进行向量化得到第一位置向量d1和第二位置向量d2;将每个所述分词分别进行词性向量化得到词性向量d3;获得所述抽取单元中每个分词的向量表达式:xi=[di,di1,di2,di3]T;其中i表示所述分词的排序;将所述抽取单元中所有分词的向量拼接得到所述抽取单元的向量矩阵,表示为X=[x1,x2,…,xi,…]T;该矩阵的维度表示为X∈RL×d,L为分词形式下句子长度,所述句子为抽取单元,d为分词的向量维度,R表示为实数矩阵。
在一个示例性实施例中,上述关系抽取模型采用如下步骤获得:连接远程监督关系库,所述远程监督关系库记录多个实体对及实体对的关系组成的关系三元组;对采集的样本数据中含有所述远程监督关系库中的实体对的样本数据用所述关系库中的关系标签进行标注关系标签,获得带关系标签的样本数据;采用带关系标签的样本数据对关系抽取模型的参数进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911088380.8/2.html,转载请声明来源钻瓜专利网。