[发明专利]基于迁移学习的连续大规模水质缺失数据填补方法在审

专利信息
申请号: 202110040587.9 申请日: 2021-01-13
公开(公告)号: CN112765141A 公开(公告)日: 2021-05-07
发明(设计)人: 蒋鹏;陈锃;许欢;刘俊;林广 申请(专利权)人: 杭州电子科技大学
主分类号: G06F16/215 分类号: G06F16/215;G06N3/04;G06N3/08
代理公司: 浙江千克知识产权代理有限公司 33246 代理人: 周希良
地址: 310018 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 迁移 学习 连续 大规模 水质 缺失 数据 填补 方法
【说明书】:

发明涉及一种基于迁移学习的连续大规模水质缺失数据填补方法。本发明首先进行数据预处理,并利用滑动窗口算法构造出训练和测试样本。然后进行数据填补:具体是将目标域的训练样本和源域的训练样本融合成为新的混合训练样本集;每次迭代中,分别构造一个新的填补数据的弱学习器;在新混合的训练样本上计算平均预测填补误差;分别计算源域的训练样本和目标域的训练样本的权重迭代更新系数;更新下一时刻源域和目标域训练样本新的权重;将所有弱学习器的输出值进行加权平均即可得到一个强学习器的最终预测填补数值。本发明在处理大规模连续缺失数据问题中有近15%‑25%填补准确率的提升。

技术领域

本发明涉及一种水质缺失数据填补方法,尤其涉及一种基于迁移学习的大规模连续水质缺失数据填补方法。

背景技术

随着工业化和城市化的快速发展,水资源保护和水污染治理已然成为全球最热门也是最令人担忧的热点话题。为了控制水污染并减弱其对水生态系统和人类社会的不利影响,大量研究者进行了许多工作(包括水质的时空预测,水质污染物影响因子评估和数据驱动的水质模型等)以提高小流域中水质监测水平。

在进行这些研究时,有效和高质量的水质数据集是产生合理且可靠研究结果的重要前提条件。但是,大多数水质数据如氨氮、PH、溶解氧等都是由不同水质监测站点的前端生物重金属传感器自动采样所得。由于设备故障、定期维护、样本采样不足、传感器参数设置的人为更改等不可抗力因素导致原始水质数据包含大量的缺失值。这些水质缺失数据将严重增加后续水质研究发现的局限性和难度。因此,随着越来越多的水质研究转向基于数据的分析,缺少的数据已成为该领域亟待解决的问题。

尽管大多数现有的研究已经探索了一些经典的统计方法(均值法、中位数法等)或新兴的机器/深度学习方法(最大期望,模糊聚类、支持向量回归和极限学习机等)来填充丢失的数据。但是很难解决大规模连续丢失数据的问题(传统方法只能应用在丢失率30%以下的情况,他们没有考虑50%-90%的丢失率情况),这是因为随着丢失率的增加,无法在丢失数据周围提供相关的先验统计信息或足够的训练样本以获得填补数据的准确性。因此,就大规模连续丢失数据问题而言,这些方法并不适用。

随着大数据时代的到来,数据中所蕴含的知识关系到国家和社会的方方面面,数据处理和分析技术的提高需要完整且精确的数据集,而由于周期性缺乏采样和分析或输入错误,现存的数据大都存在噪声或者缺失的情况。因此如何有效的解决数据问题成为至关重要的任务。本发明重点关注了水质领域内数据大规模连续缺失情况下填补方法,不同于传统的填补缺失数据的方法,本发明提出了一种基于迁移学习和深度学习相融合的算法也就是TrAdaBoost-LSTM,用于填补缺失数据。

发明内容

本发明针对现有的技术无法填补大规模连续水质缺失数据,提供了一种基于迁移学习的大规模连续水质缺失数据填补方法。

本发明包括以下步骤:

数据预处理:

将从某个水质监测站传感器所收集的不完整数据序列进行清洗、标准归一化并将其定义为实验数据;

利用时间序列相似查询的方法找出最相似于不完整数据序列的监测站点的数据并将其定为参考数据;

使用滑动窗口算法构造出训练和测试样本;

数据填补:

设含有少量训练样本且数据大规模连续缺的水质监测站点为目标域,而具有完整训练样本的水质监测站点为源域;

将目标域的训练样本和源域的训练样本融合成为新的混合训练样本集;

初始化源域和目标域的训练样本的权重分布、弱学习器权重系数:最大迭代次数以及定义混合训练样本的权重分布;

开始进行迭代运算:

每次迭代中,分别构造一个新的填补数据的弱学习器;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110040587.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top