[发明专利]序列标注模型的训练方法、装置、设备及存储介质有效
申请号: | 202110700049.8 | 申请日: | 2021-06-23 |
公开(公告)号: | CN113408279B | 公开(公告)日: | 2022-05-20 |
发明(设计)人: | 许双华;王涵暄 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06K9/62;G06F16/33 |
代理公司: | 深圳市明日今典知识产权代理事务所(普通合伙) 44343 | 代理人: | 王杰辉;曹勇 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 序列 标注 模型 训练 方法 装置 设备 存储 介质 | ||
1.一种序列标注模型的训练方法,其特征在于,包括以下步骤:
获取序列标注模型所需输入的文本数据,将所述文本数据进行向量转换,得到input_ids向量、segment_ids向量及mask向量;其中,所述序列标注模型包括Bert模型及Span模型,所述input_ids向量为所述文本数据中每个词在Bert词典中的编号,所述segment_ids向量用于标记文本数据中每个词所属的句子,所述mask向量用于标记文本数据中的词和非词;
将所述input_ids向量、所述segment_ids向量及所述mask向量输入所述Bert模型进行训练,得到输出序列;
获取所述文本数据中的边界特征数据,将所述边界特征数据进行词向量编码,得到边界向量;
将所述输出序列与所述边界向量进行连接得到连接向量;
确定所述边界特征数据的起始位置向量及结束位置向量;
利用所述Span模型将所述连接向量和所述边界特征数据的起始位置向量进行连接,并线性变换后,得到起始logits值;
利用所述Span模型将所述连接向量和所述边界特征数据的结束位置向量进行连接,并线性变换后,得到结束logits值;
根据所述起始logits值和起始位置向量计算交叉熵损失,得到起始损失值;
根据所述结束logits值和结束位置向量计算交叉熵损失,得到结束损失值;
根据所述起始损失值和结束损失值计算所述序列标注模型的总损失值,判断所述总损失值是否满足预设阈值;
当所述总损失值满足预设阈值时,完成所述序列标注模型的训练。
2.根据权利要求1所述的方法,其特征在于,所述判断所述总损失值是否满足预设阈值的步骤之后,还包括:
当所述总损失值不满足预设阈值时,根据所述总损失值调整所述起始logits值及结束logits值;
依据调整后的所述起始logits值及结束logits值重新设置所述Bert模型的参数;
返回所述将所述input_ids向量、所述segment_ids向量及所述mask向量输入所述Bert模型进行训练的步骤,以对重新设置参数后的所述Bert模型进行再次训练,直至所述总损失值满足预设阈值时停止训练,并保存所述总损失值满足预设阈值所对应的起始logits值、结束logits值及参数。
3.根据权利要求1所述的方法,其特征在于,所述确定所述边界特征数据的起始位置向量及结束位置向量的步骤,包括:
获取文本样本数据及对所述文本样本数据已标注的标注数据;其中,所述文本样本数据为所需进行目标实体词的参考起始位置及参考结束位置标注的参考文本数据,所述标注数据包括所述文本样本数据中已标注的目标实体词及所述目标实体词的参考起始位置及参考结束位置;
根据所述目标实体词的参考起始位置及参考结束位置确定所述边界特征数据的起始位置及结束位置,并生成所述起始位置对应的起始位置向量、所述结束位置对应的结束位置向量。
4.根据权利要求3所述的方法,其特征在于,所述生成所述起始位置对应的起始位置向量、所述结束位置对应的结束位置向量的步骤,包括:
在所述边界特征数据的起始位置设置为1,在所述边界特征数据中除所述起始位置之外的剩余位置设置为0,得到所述起始位置向量;
初始化所述边界特征数据,在初始化后的所述边界特征数据的结束位置设置为1,在初始化后的所述边界特征数据中除所述结束位置之外的剩余位置设置为0,得到所述结束位置向量。
5.根据权利要求1所述的方法,其特征在于,所述将所述input_ids向量、所述segment_ids向量及所述mask向量输入所述Bert模型进行训练的步骤之前,还包括:
判断所述input_ids向量的向量长度是否达到预先为所述Bert模型设定的句子的最大长度;
若否,则在所述input_ids向量的末尾用0进行填充,直至填充后的所述input_ids向量的向量长度达到预先为所述Bert模型设定的句子的最大长度时,执行所述将所述input_ids向量、所述segment_ids向量及所述mask向量输入所述Bert模型进行训练的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110700049.8/1.html,转载请声明来源钻瓜专利网。