[发明专利]数据处理方法、系统、电子设备及存储介质在审
申请号: | 202110838128.5 | 申请日: | 2021-07-23 |
公开(公告)号: | CN113570066A | 公开(公告)日: | 2021-10-29 |
发明(设计)人: | 姚心;骆嘉辉;刘海威;杨培培;张瑛华;王禺辰;倪高岗;吴昊 | 申请(专利权)人: | 中国恩菲工程技术有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;F23G5/00;F23G5/50 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 孙宝海;袁礼君 |
地址: | 100038*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 系统 电子设备 存储 介质 | ||
本发明提供了一种数据处理方法、系统、电子设备及存储介质,数据处理方法包括以下步骤:获取控制系统过程数据,所述过程数据包括至少一系统控制参数数据和与所述系统控制参数数据对应的系统状态参数数据;获取一所述第一系统控制参数数据;获取所述第一系统控制参数数据中变化大于参数阈值对应的多个剔除时间点;从所述过程数据中剔除每个剔除时间点前一特定时间段T1内的所述系统控制参数数据和所述系统状态参数数据。本发明的数据处理方法用于处理机器学习的数据样本的筛选,解决工业过程控制中,经验数据样本质量波动较大的问题,有助于提高过程控制机器学习模型的精确度和适用性。
技术领域
本发明涉及数据处理领域,具体地说,涉及一种数据处理方法、系统、电子设备及存储介质。
背景技术
机器学习是对能通过经验自动改进的计算机算法,即用数据或以往的经验优化计算机程序的性能标准,为了机器学习模型的准确性,模型规模不断扩大,其训练所需的数据样本也愈来愈大,机器学习的数据样本的筛选方法变得尤为重要。
专利申请CN112051506A公开了一种相似产品可迁移样本筛选方法,其中包括预处理待测配方相似产品短期循环寿命测试数据得到目标样本数据,预处理其他配方电池全寿测试容量数据得到多个训练数据;通过进行曲线形态筛选、容量退化率相似度筛选、寿命分布相似度筛选和距离度量最小筛选,获得用于跨配方相似产品寿命预测的可迁移样本数据,该专利从不同配方电池的历史全寿测试数据中,获得与被预测电池容量退化规律相似度最高的数据,并迁移应用于被预测电池寿命预测模型的训练,实现了锂动力电池跨配方剩余寿命的准确预测,预测准确度最高可以达到99.9%。
专利申请CN112085404A公开了一种感性工学产品样本筛选方法,包括:确定产品设计目标,搜集产品样本和感性词汇;给产品样本赋予若干个特征属性指标来描述产品样本的特征;采用Jaccard相似系数的计算方法对产品样本进行筛选;通过问卷调查的方法判断得到的产品样本之间的相似程度;将各个相似系数进行一次平均运算,得到最终的样本相似度统计;将所有样本划分为几类,然后再从每一类中挑选出一个产品样本代表用于进一步分析。该申请利用Jaccard相似系数和调查法相结合的方式来筛选样本,在满足使用者情感需求的前提下能做到科学有效,使筛选后的产品样本准确可靠,方便筛选后的设计过程,提高设计效率,改进了传统感性工学在筛选样本过程中存在的模糊性、不明确性问题。
专利申请CN112163634A公开了分割模型样本筛选方法,包括:读取原始数据集,基于主动学习方式从未标注集中挑出信息量大于剩余样本的第一待标注样本,通过人工标注多个第一待标注样本的方式得到第一标注集;基于半监督学习方式从所有剩余样本中挑选出置信度高于设定值的第二待标注样本,通过伪标注第二待标注样本的方式得到第二标注集,将第一标注集、第二标注集及已标注集共同作为训练集。该申请能够在减小样本人工标注量的同时获得大量的用于图像实例分割模型训练的样本,进而能够实现更理想的实例分割模型准确率。
上述公开的几种机器学习样本筛选的方法主要是对数据之间对相似度进行度量,选择相似度高的数据;或者是选出对应固定模型的数据信息量大的样本,而工业控制装置数据样本具有时间规律,每个样本之间不是相互独立的,所以不能以相似度或者信息量等指标作为删选的标准。
除此之外,一般的机器学习数据预处理的方法包括数据筛选过程,但其对数据对态度是不惜所有、尽可能的保留所有数据以最大限度的寻找其背后的规律,这是因为自然产生的数据是有自然规律可以循迹的。然而,工厂状况数据是存在人工因素干扰的,进行样本筛选的目的是基于对数据背后所隐含的工艺逻辑的考量,筛选出对调控结果正确操控的控制策略数据,剔除人工因素导致不良后果的数据,使模型学习到理想的调控策略。若按照传统的机器学习样本筛选方案,容易使模型学到不好的操作经验,且模型也具有一定的滞后性。在人工调节的前后瞬间,工况比较类似,但是对应着两种完全不同的控制状态,影响模型的精度与质量。
人工经验控制得到的样本,往往水平不一,且人工调节具有调节滞后性,导致过程控制的样本的质量参差不齐,若不加选择,容易造成训练获得的机器学习模型精确性和适用性不高的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国恩菲工程技术有限公司,未经中国恩菲工程技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110838128.5/2.html,转载请声明来源钻瓜专利网。