[发明专利]一种利用文字识别识别电气设备中监测数据的处理方法在审
申请号: | 202010860366.1 | 申请日: | 2020-08-24 |
公开(公告)号: | CN112182205A | 公开(公告)日: | 2021-01-05 |
发明(设计)人: | 李根;梅华威;刘冬;张帅 | 申请(专利权)人: | 华北电力大学(保定) |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216;G06F40/279;G06N3/04;G06Q50/06 |
代理公司: | 石家庄新世纪专利商标事务所有限公司 13100 | 代理人: | 张栋然 |
地址: | 071000 河北*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 利用 文字 识别 电气设备 监测 数据 处理 方法 | ||
本发明涉及一种利用文字识别识别电气设备中监测数据的处理方法,其包括如下步骤:建立故障文本空间向量模型,进行文本特征提取;机器学习算法应用,采用机器学习建立分类模型,将电气设备故障文本分类;采用DA‑BiLSTM分类模型进行故障文本识别;本发明利用OCR技术实现了自动识别文本记录的故障数据,可以为电力系统故障文本分类提供了有力支撑,不仅能够提高故障文本分类的准确率,而且减少了人工分类的成本。
技术领域
本发明涉及一种利用文字识别识别电气设备中监测数据的处理方法。
背景技术
电力系统的复杂性与日俱增,电气设备的故障信息也正在以前所未有的速度增长,并且这些故障数据呈现出多元化的发展方向。原来都是通过人工的方式对故障进行记录,但是这种方式记录速度非常慢,无法满足当前信息快速增长下对故障的记录需求,目前对设备故障记录方式有文本、图片、视频、音频等口,其中文本记录为故障数据的主要记录方式,这些数据中往往记录着电气设备中隐藏的重要故障,而这些故障不易被发现又对设备及其重要。因此,对这些文本故障信息进行快速有效的识别分类非常困难。
发明内容
本发明所要解决的技术问题是提供一种利用文字识别识别电气设备中监测数据的处理方法,可以实现检测数据的自动识别,减少人工分类成本。
本发明所采用的技术方案是:一种利用文字识别识别电气设备中监测数据的处理方法,其特征在于其包括如下步骤:
建立故障文本空间向量模型,进行文本特征提取;
机器学习算法应用,采用机器学习建立分类模型,将电气设备故障文本分类;
采用DA-BiLSTM分类模型进行故障文本识别。
进一步的,建立故障文本空间向量模型时,首先分析电气设备故障文本特点,根据特点选择文本预处理方法,然后对预处理后的文本进行特征提取。
进一步的,所述文本预处理方法包括分词、去除停用词。
进一步的,在对文本进行特征提取时,采用卡方统计量、互信息法以及MCHI方法。
进一步的,机器学习算法应用过程中,首先对故障数据进行人工筛选,将存在明显误差、稀疏的故障数据去除,然后将处理后的数据按照预处理流程进行筛选,分别应用到支持向量机、k-最近邻、Logistic回归、Gradicnt Boosting、朴素贝叶斯机器学习分类模型中,对文本进行分类。
进一步的,在对文本分类之前,对模型进行预定义分类评估指标,根据电力设备缺陷的分类标准,将电力系统故障评估分为一般、重要、紧急3个等级。
进一步的,采用DA-BiLSTM分类模型进行故障文本识别的具体方法为:
语映射为一组向量实现对文本的分类;
DA-BiLSTM模型是将深层注意力机制和双层双向LSTM模型融合,能判断重要文本信息并进行分类,DA-BiLSTM模型结构包含嵌入层、双向LSTM层、注意力层和输出层;
嵌入层:该层的输入是由一组文本序列组成的故障文本信息,将不同的文本序列Y={y1,y2,...,yn}映射到文本词向量空间RE;其中,E是嵌入层的长度,n是文本中词的个数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华北电力大学(保定),未经华北电力大学(保定)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010860366.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于巡检机器人用的清洁设备
- 下一篇:一种大型高刚性耐冲击精密减速装置