[发明专利]一种基于改进特征选择的电力文本分类方法在审
申请号: | 201910561443.0 | 申请日: | 2019-06-26 |
公开(公告)号: | CN110287321A | 公开(公告)日: | 2019-09-27 |
发明(设计)人: | 邓松;徐雨楠;岳东;朱博宇;吴新新 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/31;G06F16/36 |
代理公司: | 南京正联知识产权代理有限公司 32243 | 代理人: | 张玉红 |
地址: | 210033 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征选择 文本分类 词语 数据分类 次特征 算法 文本 特征选择算法 数据分类器 文本关键词 传统文本 电力领域 数据特征 预处理器 再次利用 处理器 选中 改进 分类 | ||
一种基于改进特征选择的电力文本分类方法是一种为了解决电力领域文本分类问题过程中其文本专业性过强,传统文本分类中使用的特征选择方法难以寻找到电力文本关键词或关键词不够准确的机制。它主要由数据分类预处理器、数据特征处理器、数据分类器、数据分类操作核心等部分组成。本专利使用tf‑idf算法进行一次特征选择后得到的关键词,利用word2vec算法找寻与特征选择中选中关键词词意最相近的一些词语,通过再次利用特征选择算法对这些词语进行二次特征选择,如果这些词语达到了设计的阈值,则将它们也作为文本的关键词使用。
技术领域
本发明是一种基于改进特征选择的电力文本分类方法,主要用于电力领域中的文本分类,属于电力系统数据处理领域。
背景技术
从数据结构来看,电网中的数据主要分为两类。第一类是结构化数据,包括电网运行数据、气象数据和状态监测数据等,随着智能电网的建设,大量的智能电表及其配套监测设备投入使用,种类繁多的电力数据被及时的采集。这些数据资料贯穿电力生产的各个环节,它们相互联系、相辅相成,共同构成电力数据。第二类是非/半结构化数据,主要文本、声音、图像、视频等形式存储在数据库中。按照大多数信息化企业的数据管理经验,结构化数据约占数据总量的20%,它们能被关系型数据库处理,但其余80%的半结构化和非结构化数据则很难用关系型数据库表达。非/半结构化数据挖掘一直是信息学科的热点与难点。
现有的一些针对电网方向的数据挖掘都是针对电网中结构化数据的所做研究和应用,而电网中非结构化数据中的文本方向的研究却基本鲜有研究,迄今为止,有关电网中文文本处理的研究报告几乎为零。而电网企业在设备运维管理过程中,会以中文形式记录设备的敌障、缺陷、检修、消缺等信息。这些信息会以文本形式保存在信息管理系统中,不仅反映电力设备个体健康状态的既往史,还蕴藏着丰富的同类设备可靠性信息的技术。中文文本分类一直来被认为是一项重要而困难的技术,尤其当它应用于各专业领域时,需要与专业领域知识密切结合,则更为困难。在机械领域,有学者利用大量的历史设备诊断报告,运用自然语言处理技术对文本进行初始化处理,在实时诊断中将其与设备状态描述文本对比,寻找出最相似的情况,从而提供诊断建议。在电力领域,同样有国外的学者针对纽约电网提出运用机器学习的方法挖掘海量的历史缺陷数据,从而提供电力设备故障预测和预防性维修的依据。
电网数据文本分类主要考虑两个方面的问题:(1)如何解决电网数据文本中其文字具有很强的专业性,导致其分类效果不佳的问题。(2)如何利用解决传统文本中的特征选取方法来解决电力系统文本中特征冗余的问题。
发明内容
本发明的目的就是提供一种基于改进特征选择的电力文本分类方法,来解决电力系统文本分类的问题,本机制是一种策略性方法,通过使用本方法可以使得电力系统文本分类更具有针对性,提升分类的效果。
一种基于改进特征选择的电力文本分类方法,所述电力文本分类方法,使用的设备包括词典构造器、数据分类预处理器、数据特征处理器和数据分类操作核心;所述电力文本分类方法的执行过程主要包含以下步骤:
步骤1:利用电力领域相关文档建立一个电力领域词典;
步骤2:对待处理文本进行预处理,根据停用词表删除其中的一些不影响文本大意的词语;
步骤3:对步骤2中进行过预处理过的文本利用电力领域词典进行分词;
步骤4:对步骤3分过词后的文本利用tf-idf算法寻找文本中的关键词;
步骤5:先对步骤4中得到的关键词与电力领域词典进行对比,留下重复最多的数个关键词;
步骤6:利用word2vec算法对文本进行词向量语义分析,找寻和步骤5中得到的关键词词意最近的一组词;
步骤7:再次利用tf-idf算法,对步骤6中得到的一组词进行计算,如果其结果达到先设计的阈值,则将其也作为关键词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910561443.0/2.html,转载请声明来源钻瓜专利网。