[发明专利]电力领域模型预训练方法、精调方法、装置及设备有效
申请号: | 202211060951.9 | 申请日: | 2022-09-01 |
公开(公告)号: | CN115129826B | 公开(公告)日: | 2022-11-22 |
发明(设计)人: | 宋博川;张强;周飞;刘同阳;范晓宣;贾全烨 | 申请(专利权)人: | 国网智能电网研究院有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/289;G06F40/30;G06K9/62 |
代理公司: | 北京三聚阳光知识产权代理有限公司 11250 | 代理人: | 朱惠琴 |
地址: | 102209 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电力 领域 模型 训练 方法 装置 设备 | ||
1.一种电力领域模型的精调方法,其特征在于,包括:
针对下游任务构建训练用数据集;
将电力领域预训练模型中除输出层以外的其他网络结构作为底层编码器,并根据所述下游任务构建输出层网络结构,将所述输出层网络结构连接至所述底层编码器之后,得到针对下游任务的电力领域模型,所述电力领域预训练模型的预训练语料是通过对原始电力语料数据进行分词处理之后采用全词遮蔽得到的,且所述电力领域预训练模型包括注意力矩阵,所述注意力矩阵引入了词与词之间的相对位置编码;
利用所述训练用数据集对所述针对下游任务的电力领域模型进行训练;
其中,引入了词与词之间的相对位置编码的所述注意力矩阵的算法公式为:
其中,
所述下游任务为分类任务时,所述输出层网络结构为全连接网络;且所述底层编码器与所述全连接网络之间还包括第一网络结构;
所述第一网络结构用于抽取所述底层编码器中的第一层和最后一层的编码向量并求平均,得到第一编码向量,再对各个词的所述第一编码向量取平均得到所述底层编码器的编码向量;
所述全连接网络用于基于所述底层编码器的编码向量输出每个类别对应的置信度;
所述下游任务为序列标注任务时,所述输出层网络结构为条件随机场,且所述底层编码器与条件随机场层之间还包括Dropout层和映射层;
所述底层编码器的输出为batch_size,time_steps,hidden_size形状的张量,其中,batch_size为批大小、time_steps为序列长度、hidden_size为所述底层编码器的隐层单元大小;
所述底层编码器的输出经过所述Dropout层和所述映射层转换为batch_size, time_steps, num_classes形状的张量,其中,num_classes为目标类的数量;
所述条件随机场层用于基于所述batch_size, time_steps, num_classes形状的张量得到整个序列中每个元素的标签。
2.根据权利要求1所述的方法,其特征在于,所述电力领域预训练模型是通过以下方法得到:
获取原始电力语料数据;
对所述原始电力语料数据进行处理,所述处理至少包括分词处理;
对处理后得到的电力语料数据,采用全词遮蔽的方法,构建电力领域模型的预训练语料;
构建电力领域模型;
利用所述预训练语料,对所述电力领域模型进行预训练。
3.根据权利要求2所述的方法,其特征在于,所述对所述原始电力语料数据进行处理,包括:
采用BERT-CRF模型和电力领域词典对所述原始电力语料数据进行分词处理,所述BERT-CRF模型是利用电力分词语料进行训练得到。
4.根据权利要求2所述的方法,其特征在于,所述对处理后得到的电力语料数据,采用全词遮蔽的方法,构建电力领域模型的预训练语料,包括:
对所述处理后得到的电力语料数据采用预设概率进行随机全词遮蔽,将所有需要遮蔽的词语对应的字符中的一部分替换为随机字符、另一部分替换为遮蔽符号、剩余部分保留原来的字符不变。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网智能电网研究院有限公司,未经国网智能电网研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211060951.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高速液压锤桩机
- 下一篇:一种茶叶检测用浸泡装置及其使用方法