[发明专利]基于工业制造大数据的不平衡数据学习方法在审
申请号: | 201810858296.9 | 申请日: | 2018-07-31 |
公开(公告)号: | CN108960437A | 公开(公告)日: | 2018-12-07 |
发明(设计)人: | 张彩霞;王向东;王新东;胡绍林 | 申请(专利权)人: | 佛山科学技术学院 |
主分类号: | G06N99/00 | 分类号: | G06N99/00 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 伍传松 |
地址: | 528225 广东省佛山市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 工业制造 矩阵框架 大数据 数据集 采集方式 数据学习 约束条件 采集源 抽样机制 数据分布 平衡度 搜索 引入 行列 平衡 优化 | ||
本发明公开了基于工业制造大数据的不平衡数据学习方法,包括以下步骤101、确定工业制造大数据的采集源及采集方式:102、按照步骤101的采集方式从采集源获取工业制造大数据以构成不平衡数据集;103、通过抽样机制来修改不平衡数据集,以提供平衡的数据分布;104、将所述不平衡数据集引入SFBP代价矩阵框架,通过代价矩阵框架元素的逐项搜索比较,对每行和每列中满足约束条件的元素个数进行计数;通过比较每行每列满足约束条件的元素个数所占每行每列的比例,对SFBP代价矩阵框架添加相应的代价值行列数,改变其代价矩阵框架,以优化不平衡数据集的平衡度。
技术领域
本发明涉及工业制造大数据处理领域,尤其是基于工业制造大数据的不平衡数据学习方法。
背景技术
不平衡学习问题主要关注数据表示不充分和类分布扭曲变形时学习算法的性能。制造业在测控网和测控数据方面,由于来自不同设备并且针对不同对象,呈现典型的不平衡形式。由于不平衡数据集固有的复杂特点,学习这样的数据需要将大量原始数据高效转化为信息和知识表示的新理解、新原理、新算法和新工具。
发明内容
为了克服上述现有技术中的不足,本发明提供了一种基于工业制造大数据的不平衡数据学习方法。
本发明解决其技术问题所采用的技术方案为:
基于工业制造大数据的不平衡数据学习方法,包括以下步骤
101、确定工业制造大数据的采集源及采集方式:
102、按照步骤101的采集方式从采集源获取工业制造大数据以构成不平衡数据集;
103、通过抽样机制来修改不平衡数据集,以提供平衡的数据分布;
104、将所述不平衡数据集引入SFBP代价矩阵框架,通过代价矩阵框架元素的逐项搜索比较,对每行和每列中满足约束条件的元素个数进行计数;通过比较每行每列满足约束条件的元素个数所占每行每列的比例,对SFBP代价矩阵框架添加相应的代价值行列数,改变其代价矩阵框架,以优化不平衡数据集的平衡度。
所述抽样机制包括随机过抽样和欠抽样、伴随数据生成的合成抽样、自适应合成抽样、数据清理抽样、基于聚类的抽样和Boosting集成抽样。
所述代价矩阵的构建过程具体包括如下步骤:
步骤1、设定的插入操作代价值Ci和删除操作代价值Cd;
步骤2、构建SFBP算法的原始代价矩阵;
步骤3、逐行逐列统计原始代价矩阵中替换操作部分满足约束条件的元素个数;其中约束条件为:
αCs>(Ci+Cd)
其中,α为给定参数,α∈(0,1];Cs为元素值即替换操作代价值,Ci为设定的插入操作代价值,Cd为设定的删除操作代价值;
步骤4、计算原始代价矩阵中替换操作部分的每一行中所有满足约束条件的元素个数与该行所有元素个数之比即行占比ti,并统计行占比ti小于预设占比参数q的行数m;其中i=1,2,…,M,M为原始代价矩阵中替换操作部分的总行数,q∈(0,1];
步骤5、计算原始代价矩阵中替换操作部分的每一行中所有满足约束条件的元素个数与该列所有元素个数之比即列占比tj,并统计行占比tj小于预设占比参数q的列数n;其中j=1,2,…,N,N为原始代价矩阵中替换操作部分的总列数,q∈(0,1];
步骤6、根据步骤4所得行数m和步骤5所得列数n,计算r=max(m,n);并在整个原始代价矩阵的基础上添加r行和r列元素,由此得到供后续计算图编辑距离使用的求解代价矩阵。
本发明带来的有益效果有:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于佛山科学技术学院,未经佛山科学技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810858296.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:特征选择方法
- 下一篇:一种车辆中保养对象状态的确定方法及装置