[发明专利]智慧城市中时空数据小文件合并方法有效
申请号: | 201810154658.6 | 申请日: | 2018-02-23 |
公开(公告)号: | CN108460121B | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 熊炼;熊珊;国代新 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F16/16 | 分类号: | G06F16/16;G06F16/13;G06F16/17;G06F16/182;G06K9/62 |
代理公司: | 广州知友专利商标代理有限公司 44104 | 代理人: | 何秋林;周克佑 |
地址: | 400065*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 智慧 城市 时空 数据 文件 合并 方法 | ||
本发明公开了一种智慧城市中时空数据小文件合并方法,小文件合并作为一种微观的数据布局机制,可以有效提升系统I/O性能,减小用户访问延时。本文通过分析时空数据特点,将历史的用户访问信息进行参数化表示和时空属性提取,在时空属性域里,对访问信息利用AGNES算法进行层次聚类,并对聚类结果进行基于访问密度的加权计算,找到访问相关时空范围。最后,利用该时空范围指导小文件的合并。实验结果表明,本发明算法简单高效,极大的提高了系统内时空数据小文件的访问效率。
技术领域
本发明涉及智慧城市中时空数据小文件合并策略研究领域。
背景技术
在以物联网、云计算为基础的智慧城市中,无所不在的传感器时刻产生着包含有时间、空间和类型三大固有属性的传感数据,这些数据体积小(通常在几十到几百KB)、种类繁多、数量庞大,冗余性高且随时间动态增长,属于典型的时空数据小文件。
当前主流的分布式文件系统在元数据管理、数据布局、条带设计、缓存管理等实现策略上都侧重于大文件。目前较为通用的分布式文件系统有Google GFS、Hadoop HDFS、PVFS以及Lustre等。这些文件系统均采用了主从结构的集中式数据管理机制,将文件的元数据(描述数据的数据,如名字空间、访问控制信息、文件位置、大小等)和数据块文件分开存储。系统中的管理者为MDS(Metadata Server,MDS),它除了保存文件的元数据外,还负责维护数据存储节点的IP、状态等信息。而工作者即为数据存储服务器(Data StorageServer,DSS)。典型主从结构的分布式文件系统及访问机制如图1所示。从图中可以看出,Client每发出一个文件访问请求,都要先与MDS进行通信,获取到元数据信息后,再与DSS建立文件传输链接。显然,大规模高并发的小文件访问请求将会使Client-MDS之间频繁通信,占据系统有限的带宽和计算资源,从而使得MDS变成系统性能的瓶颈,严重影响数据访问性能,增加文件访问的响应时间。
海量时空数据小文件及相关应用给人们生活带来便利的同时,也严重影响了系统的访问性能。主要体现在:①内存占用率高:海量小文件占用大量的元数据服务器内存,系统存储的文件总数受限于内存容量;②元数据服务器负载大:文件的操作都要通过元数据服务器进行,频繁的交互使得元数据服务器负载过大,容易成为整个系统访问性能的瓶颈;③文件的存取效率低:文件的每一次存储和读取,都要与元数据服务器进行通信,相对于文件自身少量的数据传输时间,大部分时间都花在了系统开销上。
研究表明(Wang F,Xin Q,Hong B,et al.File System Workload Analysis forLarge Scale Scientific Computing Applications[C].IEEE.2004:139-152.),在基于小文件的应用服务系统中,用户对小文件的请求数超过所有请求数的90%,而访问的数据量却不到所有访问数据的10%。海量小文件严重影响到系统的数据访问性能。小文件合并作为一种微观的数据布局机制,可以根据将多个不同的小文件合并成大文件,一方面减少客户端Client和元数据服务器之间通信次数,另一方面也能减轻MDS负载,提升小文件访问性能。但是,现有的关于小文件合并研究,都把焦点放在了改进存储系统结构和分析文件自身特性上。当前,针对小文件问题的研究归纳起来可以分为两种:
(1)改进系统架构
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810154658.6/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置