[发明专利]一种完整实体关系抽取方法及装置有效
申请号: | 201911038681.X | 申请日: | 2019-10-29 |
公开(公告)号: | CN111008276B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 曾祥荣 | 申请(专利权)人: | 云知声智能科技股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/279 |
代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 张楠楠 |
地址: | 100000 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 完整 实体 关系 抽取 方法 装置 | ||
1.一种完整实体关系抽取方法,其特征在于,包括:
步骤1,将预处理好的词序列信息输入神经网络,神经网络的编码器部分将所述词序列信息进行编码,得到输入词序列信息的编码表示,并对所述词序列信息进行标签预测,所述标签为BIO标签;
步骤2,将所述输入词序列信息的编码表示输入到神经网络的解码器部分进行解码;
步骤3,解码器生成的输出序列按顺序每三个元素构成一个只包含实体开始字的关系三元组,综合考虑只包含实体开始字的关系三元组和输入词序列中每个词的标签以获取包含完整实体的关系三元组,所述标签为BIO标签;
所述步骤1将预处理好的词序列信息输入神经网络,神经网络的编码器部分将词序列信息进行编码,编码步骤,包括:
步骤S101:输入的词序列为x=[x1,x2,...xi,...xn],对所述输入的词序列进行词向量预处理,得到词向量矩阵,所述词向量矩阵为v=[v1,v2,...vi,...vn],其中,x为所述输入的词序列,v为所述词向量矩阵,n为所述词序列内词的总个数,i为所述词序列内词个数的变量,初始值为1,以1为单位递增,最大值为n,xi表示所述词序列中第i个词,vi表示所述词向量矩阵第i个词的向量;
步骤S102:每个词都经过神经网络的编码器计算单元进行处理,所述编码器的编码表示计算公式如下:
其中,E为编码(Encode)的缩写,为第i个词的编码表示,为所述输入词序列中前i个词的编码表示,为所述输入词序列前i-1个词的编码表示,为随机初始化且可学习的参数,f()为编码器计算单元;
步骤S103:利用分类器对所有词进行标签预测,所述分类器为softmax分类器,所述标签为BIO标签;
步骤S104:如果i≤n,重复步骤S102至步骤S103,否则转到步骤2;
所述步骤3所述解码器生成的输出序列按顺序每三个元素构成一个只包含实体开始字的关系三元组,综合考虑只包含实体开始字的关系三元组和输入词序列中每个词的BIO标签以获取包含完整实体的关系三元组,完整关系三元组抽取步骤,包括:
步骤S301:给定一个只包含实体开始字的关系三元组以及输入词序列中每个词的标签,所述标签为BIO标签;
步骤S302:取出所述只包含实体开始字的关系三元组中的第一个实体的开始字,找到所述第一个实体在输入词序列中对应的BIO标签,如果所述第一个实体的开始字对应的标签是B标签,则将词序列中所述第一个实体的开始字后面连续标签为I标签的字取出,直到出现O标签时结束,取出B标签对应的字拼接在所述第一个实体的开始字后面,作为抽取得到的第一个完整实体;
步骤S303:取出所述只包含实体开始字的关系三元组中的第二个实体的开始字,找到所述第二个实体在输入词序列中对应的BIO标签,如果所述第二个实体的开始字对应的标签是B标签,则将词序列中所述第二个实体的开始字后面连续标签为I标签的字取出,直到出现O标签时结束,取出B标签对应的字拼接在所述第二个实体的开始字后面,作为抽取得到的第二个完整实体;
步骤S304:取出只包含实体开始字的关系三元组中的关系,与步骤S303和步骤S302中所述完整实体构成一个完整的关系三元组;
步骤S305:如果还有未处理的只包含实体开始字的关系三元组,则按序重复执行步骤S301、步骤S302、步骤S303、步骤S304;否则,则结束关系三元组抽取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云知声智能科技股份有限公司,未经云知声智能科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911038681.X/1.html,转载请声明来源钻瓜专利网。