[发明专利]基于文本挖掘的精细化拟合识别变压器故障方法及设备在审
申请号: | 202210538012.4 | 申请日: | 2022-05-18 |
公开(公告)号: | CN114912460A | 公开(公告)日: | 2022-08-16 |
发明(设计)人: | 胡俊华;李晨;王雅雯;蔺家骏;王渊;马国明;郑一鸣;高山;刘咏飞;杨景刚;赵科 | 申请(专利权)人: | 国网浙江省电力有限公司电力科学研究院;华北电力大学;国网江苏省电力有限公司电力科学研究院;国网浙江省电力有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/211;G06K9/62;G06N3/04;G06N3/08;G06Q10/00 |
代理公司: | 浙江翔隆专利事务所(普通合伙) 33206 | 代理人: | 许守金;张建青 |
地址: | 310014 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 文本 挖掘 精细 拟合 识别 变压器 故障 方法 设备 | ||
1.基于文本挖掘的精细化拟合识别变压器故障方法,其特征在于,包括以下步骤:
第一步:对变压器故障文本数据中超字数的句子文本进行切分,并做增强处理,得到增强文本数据;
第二步:对第一步中的增强文件数据,进行初始向量化处理,得到初始向量化的文本矩阵,
第三步:对第二步中的初始向量化的文本矩阵,利用残差连接和层归一化处理进行编码,得到语句向量;
第四步:构建语言表征模型BERT对第三步中的语句向量进行线性降维处理,得到各类故障标签的概率;并通过添加权重动态调整语言表征模型BERT识别损失值;
第五步:对第四步中的各类故障标签的概率,通过Canopy+K-Means模型进行聚类分析;
提取得到变压器故障文本数据对应的类型标签;
第六步:根据第五步中的类型标签,识别出变压器故障文本数据描述的具体故障部位和故障类型。
2.如权利要求1所述的基于文本挖掘的精细化拟合识别变压器故障方法,其特征在于,
所述第一步中,变压器故障文本数据包括故障描述文本和故障类型,其规律性地填写在同样的表格位列;
切分的方法,包括以下内容;
每一句子文本长度最长为L字符,最短句子文本长度为M;
当句子长度小于M时,将若干句子拼接;
当句子长度在[M,L]区间内时,句子不做拼接;
拼接后的句子按照长度大小进行排序,长度相近的句子放入同一训练批次。
3.如权利要求1所述的基于文本挖掘的精细化拟合识别变压器故障方法,其特征在于,
所述第二步中,向量化处理,包括以下内容:
将变压器故障文本数据中的单个字符作为最小单位token,然后经过若干嵌入层得到初始文本向量矩阵Xe,0;
若干嵌入层至少包括标记嵌入层、片段嵌入层、位次嵌入层。
4.如权利要求3所述的基于文本挖掘的精细化拟合识别变压器故障方法,其特征在于,
标记嵌入层包括以下内容:
采用transformer机制对变压器故障文本数据中的单个字符进行随机初始化,将各字符转换为固定维的向量,然后再进行token-id转换,经id映射得到相应的向量表示,再在各文本的开头和结尾分别加以向量[CLS]和向量[SEP];
片段嵌入层包括以下内容:
利用向量[SEP]对两个文本在语义上是否相似进行分类,用至少两个向量表示,第一个句子向量的索引号为A,属于这个句子的所有标记的索引都被标记为A;
第二个句子向量的索引号为B,属于该句子的所有标记的索引均标记为B;
片段嵌入层的向量是通过索引号对照片段嵌入表得到的;
所述位次嵌入层向量对照查询表其包括以下内容:
当文本字数不足最大文本长度时,需要对其进行长度补齐,补齐位置无意义,不参与后续计算;
初始文本向量矩阵Xe,0通过若干嵌入层的向量表示进行求和得到,并传递给语言表征模型BERT。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网浙江省电力有限公司电力科学研究院;华北电力大学;国网江苏省电力有限公司电力科学研究院;国网浙江省电力有限公司,未经国网浙江省电力有限公司电力科学研究院;华北电力大学;国网江苏省电力有限公司电力科学研究院;国网浙江省电力有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210538012.4/1.html,转载请声明来源钻瓜专利网。