[发明专利]一种电力系统二次设备故障短文本数据分类方法在审

专利信息
申请号: 202010608271.0 申请日: 2020-06-30
公开(公告)号: CN111767397A 公开(公告)日: 2020-10-13
发明(设计)人: 南东亮;张路;于永军;王晓飞;杨利民;张良武;周杰;王利超;孙永辉;谭金龙;王畅;王斌春;杨延栋;刘威麟 申请(专利权)人: 国网新疆电力有限公司电力科学研究院;国家电网有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F40/242;G06F40/30;G06N3/04;G06N3/08;G06Q50/06
代理公司: 南京中律知识产权代理事务所(普通合伙) 32341 代理人: 李建芳
地址: 830011 新疆维吾尔自治区乌鲁木齐*** 国省代码: 新疆;65
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 电力系统 二次 设备 故障 文本 数据 分类 方法
【说明书】:

发明公开了一种电力系统二次设备故障短文本数据分类方法,所述方法基于主题词模型与卷积神经网络,通过使用主题词模型构建出主题词向量提取出全局性特征与使用词向量技术提取出的局部性特征,将两种特征相结合,作为卷积神经网络的输入层矩阵,提取出二次设备短文本数据信息的特征,对故障级别进行分类。本发明解决传统分类主要依靠人工经验对于故障数据分类的主观性,并且考虑到二次设备故障短文本信息的不同层次的特征,分别使用不同的模型,对文本信息的全局性特征与局部性特征二者进行结合,并使用卷积神经网络做特征提取并分类,提高了分类的准确率。

技术领域

本发明属于中文自然语言处理技术,具体涉及一种电力二次设备故障短文本数据分类方法。

背景技术

在智能电网的建设运行过程中,电力大数据爆发式的出现,这些数据根据2013年中国电机工程学会信息化专委会编著的中国电力大数据发展白皮书大体可以分为俩类,一类是以输出功率、设备及其环境温湿度、光模块光强等为代表时序化的结构化数据,另一类是以文本、图像、音频等为代表的难以使用关系型数据库表达的半结构化与非结构化数据。结构化数据挖掘工作已较为成熟,然而由于电网运行过程中往往出现的都是正常数据,只有极少量的故障数据,所带来的数据价值密度较低问题制约着非结构化数据的挖掘。其中,对于二次设备运行过程中出现的短文本故障信息也是泛在物联网建设过程中重点关注的信息。

二次设备在运行过程中,积累了很多故障缺陷短文本数据,这些数据往往由运检人员手工纪录,完成对缺陷的等级分类工作,而由于运检人员的主观性与经验性的不同,难以做到准确分类,并且由于故障数据较多,需要大量人力参与,效率难以保证。随着中文文本分类技术的发展,利用机器学习的手段对电网生产管理系统中大量的故障短文本信息的自动分类成为可能。

目前,针对短文本分类,国外已经有通过自然语言处理对酒店评价做情感分类的研究,但是由于中英文结构不同,比如英文中对专有名词大写,词与词之间空格连接等特性在中文文本分类中行不通,英语的自然语言处理难以在中文中使用,并且由于行业的不同,在二次设备文本分类领域有很多专有名词,缺乏对分类模型的改进研究,大多基于传统的机器学习领域。并且由于纪录人员手工纪录的原因,口语化纪录较多,文本信息较短,目前尚不存在对二次设备短文本信息分类的方法公开。

发明内容

发明目的:针对智能电网运行过程中二次设备所纪录的故障短文本信息长度短、语义稀疏,并且记录和分类难等问题,本发明提供一种电力二次设备故障短文本数据分类方法。

技术方案:一种电力系统二次设备故障短文本数据分类方法,该方法包括对二次设备短文本数据建立LDA主题模型和基于卷积神经网络构建二次设备故障短文本信息分类模型,步骤如下:

(1)建立样本数据集,采集电力系统中二次设备在运行过程中产生的故障短文本数据,所述故障短文本数据按成不同的缺陷等级进行标记,并将故障短文文本数据划分为训练集、验证集和测试集;

(2)文本预处理,构建停用词词典和二次设备专业词典,所述的停用词词典用于过滤去除二次设备故障短文本信息中的噪声,所述的噪声为二次设备故障短文本信息中无实际物理意义的词汇和标点符号;所述的二次设备专业词典用于识别二次设备的属性数据,所述的属性数据包括二次设备的名称、型号、厂站名称和路线名称;

(3)对二次设备短文本数据建立LDA主题模型,包括对二次设备短文本数据进行LDA主题模型特征表示,对主体模型参数进行Gibbs采样估计,输出语料库中任意文本的主题-词语矩阵;

(4)对二次设备短文本数据进行词向量特征表示,使用Skip-gram模型作为词向量的训练器,将二次设备故障短文本信息经过预处理后作为输入,输出词向量,构建词向量矩阵;

(5)词向量拼接,根据步骤(3)得到的LDA主题-词语矩阵和步骤(4)得到的词向量矩阵,进行向量拼接,归一化处理得到同时包含潜在词义特征与主题特征的词向量,作为卷积神经网络的输入;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网新疆电力有限公司电力科学研究院;国家电网有限公司,未经国网新疆电力有限公司电力科学研究院;国家电网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010608271.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top