[发明专利]一种基于增量学习的海洋观测大数据分布方法有效
申请号: | 201710117922.4 | 申请日: | 2017-03-01 |
公开(公告)号: | CN106897705B | 公开(公告)日: | 2020-04-10 |
发明(设计)人: | 黄冬梅;贺琪;随宏运;何盛琪;石少华 | 申请(专利权)人: | 上海海洋大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 上海卓阳知识产权代理事务所(普通合伙) 31262 | 代理人: | 周春洪 |
地址: | 201306 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 增量 学习 海洋 观测 数据 分布 方法 | ||
技术领域
本发明涉及海洋数据分布技术领域,具体地说,是一种基于增量学习的海洋观测大数据分布方法。
背景技术
随着我国海洋强国战略的逐步推进,科学大数据技术的迅猛发展为海洋经济产业注入了科学动力。此外,“海洋一号”A星和“海洋一号”B星等专题卫星的上轨成功优化了我国海洋立体化观测路网,使得高精度、高频度、大覆盖的实时多模态海洋数据呈几何级数爆炸式增长。海洋科学学科特征以及海洋数据获取手段的多源性导致了海洋数据具有海量性、多维、实时、强关联等特征,使得海洋数据成为大数据的典范。对海洋观测大数据有效地进行存储、管理并构建海洋大数据服务是挖掘海洋数据价值的关键途径。
数据分布是数据存储中的关键问题,它是将数据划分为一系列不相交的数据片段或区域,并按照一定的数据分配策略分散放置到各个数据节点上。在数据分布过程中,良好的分片实施策略是数据分布的关键。已有的数据分片策略(如轮转划分)适用于有着固定模式的一般关系型数据库,在通用数据上效果显著。然而,多模态的实时海洋观测大数据具有特殊的性质,使得传统的分片策略在对海洋观测大数据进行分片时忽略了其本身的特点,缺乏一定的实用性。故需进一步考虑和分析海洋数据自身的数据价值,才可有效地对数据进行分布和存储。
此外,随着大规模海洋立体观测技术的飞速发展,在实际海洋观测过程中,海洋观测大数据的信息不是一次性获得的,会不断地有新数据增加。面对大幅度不断增加的海洋观测大数据,如果每一次都要在所有数据上重新建模存储或进行数据挖掘需花费大量的时间,这显然是不现实的。而增量学习可有效地解决上述问题,使得海洋大数据的存储和管理能更好的走向服务化、实用化。
数据分布的主要目的是通过数据的合理分布,使尽可能多的数据就地存放,减少跨越逻辑分区或物理节点的数据访问。
在海洋强国的战略需求与新型信息技术迅猛发展下,对海洋大数据进行挖掘和管理可为海洋环境的观测、海洋资源的探测以及海洋灾害的预警预报等研究提供重要的信息资源。然而随着海洋观测手段及设备的多样化和深布局,如浮标、卫星、遥感、观测站等实时数据源采集,造成了数据量的密级增长,使得传统的数据分布策略对于海洋数据的存储和管理产生一定的局限性。
面对快速增长的海量海洋观测数据,如何有效地利用历史数据学习的结果,对新增数据进行高效的分析,从而避免对历史样本的重复训练和学习,得到较为准确的数据分类结果是对海洋观测数据进行分布的关键,而增量学习能够很好的解决此类问题。目前,增量学习算法在一些领域中得到了较好的应用。在对海洋数据进行分布过程中,面对实时更新的观测数据,良好的动态自适应性会对数据的分布效果和用户访问数据的响应时间带来较好的影响。因此,面对不断实时更新的海洋观测大数据,将增量学习的思想引入海洋大数据的数据分布中显得尤为重要。
中国发明专利CN201610561677.1,公开日为2016.12.14,公开了一种基于SPM和深度增量SVM的SAR图像分类方法。但是该方法无法适应于海洋数据,且无法达到本发明的技术效果。
因此,亟需一种降低训练时间的开销和用户访问数据的响应时间、解决过量匹配的基于增量学习的海洋观测大数据分布方法,而目前关于这种方法还未见报道。
发明内容
本发明的目的是针对现有技术中的不足,提供一种基于增量学习的海洋观测大数据分布方法。
为实现上述目的,本发明采取的技术方案是:
一种基于增量学习的海洋观测大数据分布方法,所述分布方法包括以下步骤:
S1:输入待布局的增量海洋观测数据集;
S2:初始化存储容量;
S3:计算增量数据集中数据的数据价值;
S4:对增量数据集中的所有数据进行划分;
S5:利用增量学习方法对增量数据集进行训练;
S6:对训练后的数据进行布局;
S7:输出布局后的增量海洋观测数据集;
其中,所述的步骤S5中的增量学习方法为支持向量机增量学习方法。
所述的步骤S3中的数据价值计算包括计算时效性、计算关联性、计算地域性。
所述的步骤S4中的划分为利用k-means方法对数据集中的所有数据进行初始划分,将数据集分为活跃区和非活跃区。
所述的步骤S6中的布局为对训练后的数据按照活跃区和非活跃区进行布局。
所述的步骤S3的计算方法包括以下步骤:
S31:计算时效性
利用TF-IDF加权技术计算海洋观测大数据的时效性,其计算公式为如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海海洋大学,未经上海海洋大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710117922.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种微震信号降噪方法
- 下一篇:一种情绪识别装置