[发明专利]实体语义关系分类方法、模型训练方法、装置及电子设备在审
申请号: | 201811641958.3 | 申请日: | 2018-12-29 |
公开(公告)号: | CN109754012A | 公开(公告)日: | 2019-05-14 |
发明(设计)人: | 樊芳利 | 申请(专利权)人: | 新华三大数据技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/35 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 吴迪 |
地址: | 450000 河南省郑州市高新技*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语料 实体语义 关系分类 装置及电子设备 模型输入 模型训练 特征向量 向量 分类准确率 第二位置 第一位置 文本识别 | ||
1.一种实体语义关系分类方法,其特征在于,应用于一电子设备,所述电子设备中预设有一实体语义关系分类模型,所述方法包括:
确定出语料中的第一实体与第二实体;
获得所述语料中每个文字各自与所述第一实体的第一位置距离以及与所述第二实体的第二位置距离;
将所述语料中所有文字各自对应的特征向量进行组合,得到所述语料对应的模型输入向量,其中,每个文字对应的所述特征向量由所述语料中每个文字对应的字向量与位置向量进行组合后获得,所述位置向量包括每个文字的第一位置距离和第二位置距离分别对应的向量;
将所述语料对应的模型输入向量,作为所述预设的实体语义关系分类模型的输入,确定出所述第一实体与所述第二实体两者的实体语义关系类型。
2.如权利要求1所述的方法,其特征在于,将所述语料中所有文字各自对应的特征向量进行组合,得到所述语料对应的模型输入向量的步骤,包括:
获得所述语料中每个文字对应的字向量,以及每个文字的第一位置距离与第二位置距离各自对应的第一位置嵌入向量和第二位置嵌入向量;
将每个文字对应的字向量、第一位置嵌入向量和第二位置嵌入向量进行组合,获得每个文字对应的特征向量;
将所述语料中所有文字各自对应的特征向量进行组合,获得所述语料对应的所述模型输入向量。
3.如权利要求2所述的方法,其特征在于,获得每个文字的第一位置距离与第二位置距离各自对应的第一位置嵌入向量和第二位置嵌入向量的步骤,包括:
获得位置嵌入向量表,其中,所述位置嵌入向量表记录有位置距离与位置嵌入向量的对应关系;
在所述位置嵌入向量表中分别确定出所述第一位置距离和所述第二位置距离各自对应的所述第一位置嵌入向量和所述第二位置嵌入向量。
4.如权利要求1所述的方法,其特征在于,所述实体语义关系分类模型为双向门控循环神经BiGRU+注意力Attention机制模型,所述语料为电子病历。
5.一种实体语义关系分类模型训练方法,其特征在于,应用于一电子设备,所述方法包括:
接收至少一个训练样本,识别所述至少一个训练样本中每个训练样本的第一实体和第二实体;
获得所述每个训练样本中每个文字各自与对应的所述第一实体的第一位置距离以及与对应的所述第二实体的第二位置距离;
将所述每个训练样本中所有文字各自对应的特征向量进行组合,得到所述每个训练样本对应的模型输入向量,其中,每个文字对应的所述特征向量由所述每个训练样本中每个文字对应的字向量与位置向量进行组合后获得,所述位置向量包括每个文字的第一位置距离和第二位置距离分别对应的向量;
将所述每个训练样本各自对应的模型输入向量作为所述实体语义关系分类模型的输入,以对所述实体语义关系分类模型进行训练。
6.如权利要求5所述的方法,其特征在于,将所述每个训练样本各自对应的模型输入向量作为所述实体语义关系分类模型的输入,以对所述实体语义关系分类模型进行训练的步骤,包括:
获得所述每个训练样本通过所述实体语义关系分类模型训练后得到的所述第一实体与第二实体两者的实体语义关系类型;
获得所述每个训练样本中所述实体语义关系类型和,为所述每个训练样本对应预先存储的所述第一实体和第二实体的实体语义关系类型的偏差值;
获得所述每个训练样本的偏差值之和;
当所述偏差值之和超过第一偏差阈值,则调整所述实体语义关系分类模型中的参数,以训练所述实体语义关系分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华三大数据技术有限公司,未经新华三大数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811641958.3/1.html,转载请声明来源钻瓜专利网。