[发明专利]基于局部加权回归的室内空气数据预处理方法在审
申请号: | 201710020701.5 | 申请日: | 2017-01-12 |
公开(公告)号: | CN106874651A | 公开(公告)日: | 2017-06-20 |
发明(设计)人: | 孙贺江;徐崇;刘俊杰 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 天津市北洋有限责任专利代理事务所12201 | 代理人: | 刘国威 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 局部 加权 回归 室内空气 数据 预处理 方法 | ||
技术领域
本算法能对随时间变化的空气参数(温度,湿度,甲醛浓度,PM2.5浓度,二氧化碳浓度等)中的数据空缺进行填补,并可以对数据中的异常跳变值进行去除,以及可以对数据进行零点偏移的修正。属于特定数据预处理的领域。具体讲,涉及基于局部加权回归的室内空气数据预处理方法。
背景技术
目前对数据进行预处理的技术方法难易皆具,然而简单的预处理方法难以做到有效,而有效的预处理方法往往比较复杂[1]。本技术预处理的数据对象是室内空气数据:第一,这种数据具有整体上随时间缓慢变动但是每时每刻都有着不同程度的随机噪声的特点(如图1);第二,由于硬件系统具有数据空缺报警功能,故可以确保数据空缺的时长很短;第三,已经具有了修正零点偏移的标定曲线。所以相比于对数据空缺进行填补和零点偏移,本技术的核心是对数据中的跳变异常值进行去除,并且能够保证与人行为变化相关的数据大幅度变动不被识别成异常值被剔除。
在对数据异常值进行剔除的方法中,最常见的是对数据直接使用C4.5决策树进行分类判定[2],但是该算法易将因为人行为变化导致的数据大幅度变动值和异常跳变值一并被分类成异常值;其次CD(Curve Description)法也被用于对异常值的分类[3],此方法以相邻的数值的变化量和变化率为阈值进行判定,然而对于本专利要解决的问题而言,它和决策树法有着相似的缺陷,而且在程序实现上也比决策树法复杂;国外也使用噪声数据过滤法(Filters)识别并剔除异常值,比较典型的是Ensemble Filter(EF)[4]和Iterative-Partitioning Filter(IPF)[5],这两种方法都比较有名,但是都比较复杂,得对其额外设置多个参数[1],这对本技术所面对的问题是没有必要的。
发明内容
为克服现有技术的不足,本发明旨在用简单但有效的方法对室内空气随时间变化的数据进行预处理,包括短时长数据空缺的填补,数据异常跳变值的去除,与此同时保证与人行为变化相关的数据大幅度变动不被识别成异常值,最后进行零点偏移的矫正。本发明采用的技术方案是,基于局部加权回归的室内空气数据预处理方法,首先进行短时长数据空缺的填补,要确保整个数据不存在空缺的0值,然后再进行数据异常跳变值的去除,在保证不再存在针状的数据跳变点时,再进行零点偏移的矫正,即将处理好的数据代入到标定曲线中。
进行数据异常跳变值的去除具体步骤是,使用拟合曲线将有意义的信息拟合出来,并且同时不拟合针状数据跳变和所有的高频噪声,具体选用局部加权回归(Local Weight Regression)进行有用信息的拟合,再用原数据曲线减去拟合曲线得到噪声曲线,解决有用信息对跳变值去除的干扰。
局部加权回归原理具体步骤是,先用一定数目的横轴上的参考点将整个数据等分开来,并以这些点为中心分别求算线局部性回归,在使用最小二乘法求解回归参数时,离中心点越远的数据点所占的权数越小,最后得到这些点的回归数值,然后用插值将这些回归数值点相连,这里使用线性插值即可;
进一步地,对每一个训练数据点,都要使得:
∑iw(i)(y(i)-θTx(i))2 (1)
最小;
其中i是训练数据的个数角标;x指时间轴的时间值;y是目标值;θ是回归方程的系数向量,使用二次回归,故θ是个三维向量;w是高斯权数,表示成:
其中没有上角标的x指的是选定的横轴上的参考点,τ是带宽(bandwidth),τ越大,局部回归的强度越大;
局部加权回归在每个残差平方项之前多一个高斯权,对每个参考点都要求得二次的回归曲线,且曲线参数一定是不同的,对任一个参考点x,都有:
θ=(XTWX)-1XTWy(3)
其中,X是由1,x(i),(x(i))2组成的m维矩阵,称之为设计矩阵(design matrix)m即训练数据数量,X写作:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710020701.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能服装数据分析管理系统
- 下一篇:燃煤配比方法和装置
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用