[发明专利]一种利用文字识别识别电气设备中监测数据的处理方法在审
申请号: | 202010860366.1 | 申请日: | 2020-08-24 |
公开(公告)号: | CN112182205A | 公开(公告)日: | 2021-01-05 |
发明(设计)人: | 李根;梅华威;刘冬;张帅 | 申请(专利权)人: | 华北电力大学(保定) |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216;G06F40/279;G06N3/04;G06Q50/06 |
代理公司: | 石家庄新世纪专利商标事务所有限公司 13100 | 代理人: | 张栋然 |
地址: | 071000 河北*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 利用 文字 识别 电气设备 监测 数据 处理 方法 | ||
1.一种利用文字识别识别电气设备中监测数据的处理方法,其特征在于其包括如下步骤:
建立故障文本空间向量模型,进行文本特征提取;
机器学习算法应用,采用机器学习建立分类模型,将电气设备故障文本分类;
采用DA-BiLSTM分类模型进行故障文本识别。
2.根据权利要求1所述的一种利用文字识别识别电气设备中监测数据的处理方法,其特征在于建立故障文本空间向量模型时,首先分析电气设备故障文本特点,根据特点选择文本预处理方法,然后对预处理后的文本进行特征提取。
3.根据权利要求2所述的一种利用文字识别识别电气设备中监测数据的处理方法,其特征在于所述文本预处理方法包括分词、去除停用词。
4.根据权利要求2所述的一种利用文字识别识别电气设备中监测数据的处理方法,其特征在于在对文本进行特征提取时,采用卡方统计量、互信息法以及MCHI方法。
5.根据权利要求1所述的一种利用文字识别识别电气设备中监测数据的处理方法,其特征在于机器学习算法应用过程中,首先对故障数据进行人工筛选,将存在明显误差、稀疏的故障数据去除,然后将处理后的数据按照预处理流程进行筛选,分别应用到支持向量机、k-最近邻、Logistic回归、Gradicnt Boosting、朴素贝叶斯机器学习分类模型中,对文本进行分类。
6.根据权利要求5所述的一种利用文字识别识别电气设备中监测数据的处理方法,其特征在于在对文本分类之前,对模型进行预定义分类评估指标,根据电力设备缺陷的分类标准,将电力系统故障评估分为一般、重要、紧急3个等级。
7.根据权利要求1所述的一种利用文字识别识别电气设备中监测数据的处理方法,其特征在于采用DA-BiLSTM分类模型进行故障文本识别的具体方法为:
语映射为一组向量实现对文本的分类;
DA-BiLSTM模型是将深层注意力机制和双层双向LSTM模型融合,能判断重要文本信息并进行分类,DA-BiLSTM模型结构包含嵌入层、双向LSTM层、注意力层和输出层;
嵌入层:该层的输入是由一组文本序列组成的故障文本信息,将不同的文本序列Y={y1,y2,...,yn}映射到文本词向量空间RE;其中,E是嵌入层的长度,n是文本中词的个数;
BiLSTM层:LSTM将文本词向量作为输入,隐藏状态H=(h1,h2,...ht)是对词向量的注释;其中,ht是LSTM在时间步骤t的隐藏状态,总结从y1到yt所有词向量的信息;BiLSTM从前后两个方向获得词向量信息,BiLSTM模型包括前向LSTMf和后向LSTMf,前向LSTMF读取y1到yn向量,后向LSTMf读取yn到y1向量,并从两个方向上的向量注释获得最终向量表示:
式中表示连接h1和hi,L表示LSTM的长度,两层BiLSTM是为了获得更准确的词向量特征;
注意力层:所有词向量对文本分类贡献率是不同的,注意力机制可以判断不同词向量的重要程度;该过程能基于隐藏状态ht而获得注意力权重a;特征向量s可以由当前状态ht和前面的状态ht-1得出;
输出层:s作为特征向量进行分类,并将分类结果反馈到最终连接的sofmax分类器层,该层输出所有类的概率分布。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华北电力大学(保定),未经华北电力大学(保定)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010860366.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于巡检机器人用的清洁设备
- 下一篇:一种大型高刚性耐冲击精密减速装置