[发明专利]一种基于HDFS的海量医疗小文件分布式存储方法在审

申请号：	201910793068.2	申请日：	2019-08-26
公开（公告）号：	CN110502479A	公开（公告）日：	2019-11-26
发明（设计）人：	付蔚;李克宇;童世华;赵红莹;张珂汇	申请（专利权）人：	重庆邮电大学
主分类号：	G06F16/13	分类号：	G06F16/13;G06F16/172;G06F16/182
代理公司：	11275 北京同恒源知识产权代理有限公司	代理人：	赵荣之<国际申请>=<国际公布>=<进入
地址：	400065 ***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	缓存分布式存储数字串小文件集群预处理特征数字串文件相似性格式文件索引文件位数判断相似文件性能优化医疗文件后提取求和降维加权存储合成合并分配医疗
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于HDFS的海量医疗小文件分布式存储方法，其特征在于：包括以下步骤：

S1：搭建标准分布式文件系统HDFS，划分角色节点NameNode和DataNode，在标准HDFS中分配医疗文件预处理节点，其中，预处理节点分配原则与NameNode节点一致；

S2：通过客户端提交上传医疗文件至预处理节点；

S3：预处理节点对客户端传来的医疗文件进行预处理，包括大小判断、合并、缓存、反馈和上传操作；

S4：预处理节点处理后的文件上传至标准HDFS，通过从NameNode获取数据块的元数据，将元数据内容存储于NameNode；将文件内容划分为数据块分布存储于DataNode中，并进行副本策略备份。

2.根据权利要求1所述的基于HDFS的海量医疗小文件分布式存储方法，其特征在于：步骤S3中所述预处理，具体包括以下步骤：

S31：预处理节点接收到客户端传来的医疗文件，进行文件大小判断，以HDFS中设定的数据块大小为判断阈值；

S32：若文件大小大于设定阈值，则判定为大文件，将其元数据存入NameNode节点，并由NameNode节点指定该文件存入相应DataNode；

S33：若文件大小小于设定阈值，则判定为小文件，存入缓存，等待合并；

S34：将缓存的医疗小文件根据其相似性进行合并，并生成索引文件以提高存取效率；

S35：将合成文件块的元数据存入NameNode节点，并由NameNode节点指定该文件块存入相应DataNode。

3.根据权利要求2所述的基于HDFS的海量医疗小文件分布式存储方法，其特征在于：步骤S34中所述医疗小文件根据其相似性进行合并的具体步骤如下：

S341：提取缓存区小文件特征，生成该文件的特征矩阵；

S342：将特征进行hash运算，每个特征词对应生成由0、1、-1组成的数字串；

S343：根据文件特征的重要性，对不同特征赋予不同权重值，生成权重矩阵；

S344：将权重与特征词所对应的数字串相乘，生成一系列新的权重数字串；

S345：将该小文件的所有权重数字串相加求和，得到一个表示该小文件的特征数字串；

S346：将特征数字串降维，得到由0、1、-1组成的文件特征01数字串；

S347：根据海量医疗小文件的文件特征01数字串相同位数判断文件相似性，并组成矩阵，取相似列向量代表的小文件进行合并。

4.根据权利要求3所述的基于HDFS的海量医疗小文件分布式存储方法，其特征在于：步骤S347中，小文件合并技术采用SequenceFile技术，SequenceFile格式由一个头部Header和多个记录Record组成，头部中包含版本信息、压缩类型和用户自定义元数据，记录中则存放文件名和文件内容，同时记录文件长度和文件名的长度；同时生成小文件在合并文件块中的索引文件，格式为<key,value>,其中key值为文件名，value值为该小文件在此文件块中的偏移量，该索引文件存放在与该SequenceFile文件块相同DataNode上。

5.根据权利要求2所述的基于HDFS的海量医疗小文件分布式存储方法，其特征在于：文件块阈值大小设置为64MB，且小文件合成后的文件块只能接近64MB，但不得大于64MB。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于重庆邮电大学，未经重庆邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910793068.2/1.html，转载请声明来源钻瓜专利网。

上一篇：一种离线系统之间的数据交互方法及系统
下一篇：分布式存储数据检索方法、系统、装置及可读存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于HDFS的海量医疗小文件分布式存储方法在审

专利文献下载