[发明专利]基于随机森林算法的台区相序识别方法、装置及终端设备有效
申请号: | 202011622001.1 | 申请日: | 2020-12-30 |
公开(公告)号: | CN112750051B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 蔡永智;唐捷;谭跃凯;招景明;林国营;阙华坤;危阜胜;李健;卢世祥;冯小峰;郭文翀;李慧;胡秀珍 | 申请(专利权)人: | 广东电网有限责任公司计量中心 |
主分类号: | G06Q50/06 | 分类号: | G06Q50/06;G06F18/2431;G06F18/214 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 贾小慧 |
地址: | 510080 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 随机 森林 算法 台区相序 识别 方法 装置 终端设备 | ||
1.一种基于随机森林算法的台区相序识别方法,其特征在于,包括以下步骤:
S10.获取目标台区在某时间段内的配电变压器各相低压出线与各用户电表之间的时序电压样本数据,以及建立所述用户电表的相序归属关系的特征集;
S20.对所述时序电压样本数据进行预处理,得到样本集;
S30.从所述样本集中选取时序电压样本数据生成训练集和测试集;
S40.对所述训练集和所述特征集进行训练,得到训练决策树,将m个所述训练决策树建立随机森林识别模型;
S50.采用所述随机森林识别模型对所述测试集进相序识别,得到目标台区中用户电表的相序;
在步骤S40中,建立随机森林识别模型的步骤包括:
S41.从所述样本集D中获取一个时序电压样本数据存储至训练集,还将获取的这个时序电压样本数据又存储至所述样本集中;
S42.重复执行m次步骤S41,得到m个时序电压样本数据组成的训练集合d,并从所述特征集中选取P个特征组成一个新特征集;
S43.选取m个所述训练集合中一个训练集采用随机森林生成一个训练决策树,重复执行m次步骤S43,得到m个所述训练决策树;
S44.将m个所述训练决策树采用随机森林的学习算法建立随机森林识别模型;
其中,所述测试集是由所述样本集中除去训练集时序电压样本数据后余下的时序电压样本数据组成的;
在步骤S43中,选取m个所述训练集合中一个训练集采用随机森林生成一个训练决策树包括:
将一个所述训练集分成两个子训练集,对应于随机森林的每个非叶子节点设置有两个分支;
对与每个所述分支对应的子训练集采用第二约束条件从所述新特征集选取对应的特征,生成一个训练决策树;
其中,所述随机森林包括非叶子节点和叶子节点;所述第二约束条件为随机森林的Gini系数小于设定系数界限值、所述随机森林中节点的子训练集的时序电压样本数据的数量小于设定数量界限值或所述随机森林的深度大于设定深度界限值;
随机森林的Gini系数的表达式为:
式中,pi为随机森林节点中的子训练集属于类i的概率,M为随机森林节点中类的数目;
随机森林识别模型对所述测试集进相序识别输出的识别数值为:
式中,m为训练决策树的数量,rfi为训练的第i个训练决策树,为识别数值。
2.根据权利要求1所述的基于随机森林算法的台区相序识别方法,其特征在于,在步骤S10中,获取目标台区在某时间段内的配电变压器各相低压出线与各用户电表之间的时序电压样本数据满足第一约束条件,第一约束条件包括:所述时序电压样本数据的时间跨度不小于96个采样点,所述时序电压样本数据的时间断面数不少于所述用户电表的总数,所述时序电压样本数据的缺失比例不小于20%,与所述时序电压样本数据对应目标台区的三相不平衡度大于0.02。
3.根据权利要求2所述的基于随机森林算法的台区相序识别方法,其特征在于,所述时序电压样本数据的缺失比例为获取的所述时序电压样本数据的缺失采样点数量与时序电压样本数据的时间跨度的比值百分比。
4.根据权利要求2所述的基于随机森林算法的台区相序识别方法,其特征在于,在步骤S20中,对所述时序电压样本数据进行预处理包括:对缺失比例不大于5%的所述时序电压样本数据采用拉格朗日插值算法对缺失数据进行填充;
对缺失比例大于5%的所述时序电压样本数据采用K近邻算法对缺失数据进行填充。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东电网有限责任公司计量中心,未经广东电网有限责任公司计量中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011622001.1/1.html,转载请声明来源钻瓜专利网。