[发明专利]一种实体关系联合抽取方法及装置在审
申请号: | 202110340031.1 | 申请日: | 2021-03-30 |
公开(公告)号: | CN112926332A | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 陈培华 | 申请(专利权)人: | 善诊(上海)信息技术有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/35;G16H50/20 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 许曼;贾磊 |
地址: | 201203 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实体 关系 联合 抽取 方法 装置 | ||
1.一种实体关系联合抽取方法,其特征在于,包括:
获取待预测文本数据;
利用预先建立的实体关系联合抽取模型对所述待预测文本数据进行抽取,预测得到词例区间的类型及实体词组的关系类型,所述词例区间的类型包括实体类型及非实体类型,实体词为实体类型的词例区间,所述实体词组的关系类型包括关系及非关系;
其中,所述实体关系联合抽取模型用于对文本数据进行预处理,得到词例区间、词例区间向量、词例区间长度向量及文本向量;根据预处理得到的信息,预测得到词例区间的类型;根据实体词组及实体词组中实体词之间文字向量,预测得到实体词组的关系类型。
2.如权利要求1所述的实体关系联合抽取方法,其特征在于,还包括:
根据所述待预测文本数据所属领域的允许关系约束字典,对预测得到的实体词组的关系类型进行过滤。
3.如权利要求1所述的实体关系联合抽取方法,其特征在于,所述实体关系联合抽取模型包括:预处理模块及分类模块,其中,所述分类模块包括嵌入层、第一分类器、过渡层及第二分类器;
所述预处理模块用于对文本数据进行预处理,得到词例区间、词例区间向量、词例区间长度向量及文本向量;
所述嵌入层连接所述预处理模块,用于根据预处理得到的信息,构建第一向量;
所述第一分类器连接所述嵌入层,根据所述第一向量,预测得到词例区间的类型;
所述过渡层连接所述第一分类器及第二分类器,用于筛选出实体类型的词例区间,得到实体词;将每两个实体词组成的实体词组及实体词组中实体词之间文字向量拼接成第二向量;
所述第二分类器用于根据所述第二向量,预测得到实体词组的关系类型。
4.如权利要求3所述的实体关系联合抽取方法,其特征在于,所述预处理模块对文本数据进行处理,得到词例区间、词例区间向量、词例区间长度向量及文本向量,包括:
对所述文本数据进行分词/分字处理,得到词例列表;
利用BERT预训练模型对所述词例列表进行处理,得到文本向量和各个词例所对应的词例向量;
根据所述词例列表及预设滑动窗口,获取词例区间;
将所述词例区间包含的词例向量经融合函数,得到词例区间向量;
根据所述词例区间的长度,获取词例区间长度向量。
5.如权利要求3所述的实体关系联合抽取方法,其特征在于,根据所述预处理得到的信息,构建第一向量,包括:
由所述词例区间向量,或所述词例区间向量及所述文本向量,或所述词例区间向量及词例区间长度向量,或所述词例区间向量、所述词例区间长度向量及所述文本向量拼接成第一向量。
6.如权利要求3所述的实体关系联合抽取方法,其特征在于,所述第一分类器包括:第一分类函数单元及第一判断单元,所述第一分类函数单元用于输出词例区间类型的概率向量,所述第一判断单元用于根据词例区间类型的概率向量,确定词例区间的类型;
所述第二分类器包括:第二分类函数单元及第二判断单元;所述第二分类函数单元用于输出实体词组的关系类型的概率向量,所述第二判断单元用于根据实体词组的关系类型的概率向量,确定实体词组的关系类型。
7.如权利要求3所述的实体关系联合抽取方法,其特征在于,所述实体关系联合抽取模型通过如下方式进行训练:
利用所述预处理模块对训练文本数据进行预处理,得到词例区间、词例区间向量、词例区间长度向量及文本向量;
获取标注得到的词例区间的实体类型及实体词组的关联关系;
根据预处理得到的信息,构建第一向量;
将所述第一向量输入至所述第一分类器中,预测得到词例区间的类型;
筛选出实体类型的词例区间,得到实体词,将每两个实体词组成的实体词组及实体词组中实体词之间的文字向量拼接成第二向量;
将所述第二向量输入至所述第二分类器中,预测得到实体词组的关系类型;
根据预测得到的所述词例区间的实体类型及所述实体词组的关系类型,以及标注得到的所述词例区间的实体类型及所述实体词组的关系类型,训练所述实体关系联合抽取模型中的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于善诊(上海)信息技术有限公司,未经善诊(上海)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110340031.1/1.html,转载请声明来源钻瓜专利网。