[发明专利]一种应用于海量不完整数据的压缩优化方法有效
申请号: | 201611081153.9 | 申请日: | 2016-11-30 |
公开(公告)号: | CN106598492B | 公开(公告)日: | 2019-04-09 |
发明(设计)人: | 王妍;孙凌峰;李玉诺;王俊陆;宋宝燕 | 申请(专利权)人: | 辽宁大学 |
主分类号: | G06F3/06 | 分类号: | G06F3/06;G06F16/13;G06F16/172 |
代理公司: | 沈阳杰克知识产权代理有限公司 21207 | 代理人: | 罗莹 |
地址: | 110000 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 应用于 海量 完整 数据 压缩 优化 方法 | ||
1.一种应用于海量不完整数据的压缩优化方法,其特征在于:包括硬优化方法(1)、软优化方法(2);
所述的硬优化方法(1)实现步骤如下:
(1.1):确定属性字段的编码方式:在一个元组中,当属性值字段没有发生缺失时,根据确定性查询条件,利用位编码形式对属性值字段进行编码,利用“0”,“1”对元组中确定性查询条件对应的属性字段进行编码;当属性值发生缺失时候,利用“*”对属性值缺失字段进行编码;
(1.2):确定Def_query值:不管当前元组中是否存在属性值缺失字段,根据(1.1)中的编码方式,计算当前元组t所满足的确定性查询条件所对应的Def_Query值;
(1.3):将元组t写入为该Def_Query值所准备的待压缩缓存块BlockDef_Query中,设定其序号为Block_IdDef_Query;将元组t的不确定性查询条件的值Undef_Vals以及Def_Query值和缓存块号Block_IdDef_Query插入到数据库索引表中;
(1.4):如果Block_IdDef_Query所代表的压缩缓存块已满,则利用压缩算法对该缓存块进行压缩;将得到的Block_IdDef_Query以及压缩得到的地址AddressDef_Query写入压缩地址表中,得到使用硬优化算法后的压缩数据和索引文件;
所述的Def_Query代表用户使用的确定性查询条件,Block代表压缩缓存块,Block_Id代表数据元组所在的缓存块的序号,Undef_Vals代表不确定性查询条件所对应的属性值,Address代表缓存块压缩后的压缩文件地址;
所述的软优化方法(2)实现步骤如下:
(2.1):确定海量不完整数据集中确定性查询条件所对应属性的属性主观权重;通过计算用户的频繁查询条件的使用概率,计算得到不完整数据集中相关属性的主观权重;
(2.2):计算不完整数据集中属性的客观权重,步骤具体为:
①查询结果数值化:将查询结果集中的非数值属性列删除,使结果集中都是数值型数据;
②结果集划分:将数值化后的结果集进行划分,将其划分为完备结果集和不完备结果集;此时数据集中不再存在缺失数据;
③条件属性集合和决策属性集合确定:当一个结果集不存在明显的决策属性集合时,将结果集中的全部属性集合既作为条件属性集合又作为决策属性集合;
④属性客观权重计算:通过利用粗糙集中相关理论求得结果集中各个属性的属性重要性,同时计算各个属性对应的属性客观权重;
(2.3):属性综合权重计算:通过利用用户偏好系数,对各个属性进行属性综合权重的计算,得到属性的综合权重,具体为:
(2.3.1):属性主观权重计算:通过计算用户的频繁查询条件的使用概率,
计算得到不完整数据集中相关属性的主观权重:
其中p(i)代表属性i的属性主观权重,t(i)代表i属性使用的次数,代表压缩过程中确定性查询条件所对应的所有属性的使用次数之和;
(2.3.2):属性客观权重计算:结合粗糙集理论,对不完整数据集中属性客观权重进行计算,计算步骤如下:
①确定等价关系:首先得到全部确定性查询条件所对应的属性集合U的等价关系IND(U),依次删除集合U中每一个属性i(i∈U),得到删除该属性后的属性集合U-i的等价关系IND(U-i);
②确定属性的依赖度,首先得到全部属性集合U对的依赖度为γU(U)=1,接着可以得到在删除属性i后,集合U中剩余属性集合的依赖度为:
其中U代表数据集中全部的属性集合,i代表每次要删除的属性,POSU-{i}(U)代表集合U的U-{i}正域,|POSU-{i}(U)|代表正域中的元组数,|U|代表U中的元组数;
③利用第二步所得到的γU(U)和γU-{i}(U),可以求得在本技术中的属性重要性计算方法:SGF(i,U,U)=γU(U)-γU-{i}(U)
其中SGF(i,U,U)代表属性i加入集合U中对分类变化的影响重要程度,即是属性i的属性重要性,γU(U)代表属性i存在于U中时,U对U的属性依赖度,γU-{i}(U)代表集合U对U中除i以外的其它属性集合U-{i}的属性依赖度;
④依次计算各个属性i对于属性集合U的属性重要性,利用属性重要性的占比计算它们各自的属性客观权重ω(i),计算方法如下:
其中SGF(i,U,U)代表属性i的属性重要性,代表U中所有属性的属性重要性之和;
(2.3.3):属性综合权重计算:通过利用用户偏好系数,对各个属性进行属性综合权重的计算,得到属性的综合权重;
cw(i)=αp(i)+(1-α)×ω(i)
其中α为用户的偏好系数,cw(i)代表属性综合权重,p(i)代表属性主观权重,ω(i)代表属性客观权重;
(2.4):结合属性综合权重以及海量不完整数据硬优化方法中的属性字段编码方式,重新设计元组中属性字段的编码方式,对元组中的确定性查询条件所对应的属性字段进行编码;
①设置属性综合权重的权重阈值,比较Def_query对应的属性集合中各个属性的综合权重与权重阈值y的大小关系;
②对于一个元组t,如果其中的属性综合权重大于y,那么当它发生属性值缺失时候,该属性需要被编码为“0”和“1”;如果属性值未发生缺失,那么该属性需要根据确定性查询条件,编码为“0”或者“1”;
③如果其中的属性综合权重小于y,那么当它发生属性值缺失时候,该属性需要被编码为“*”;如果属性值未发生缺失,那么该属性需要根据确定性查询条件,编码为“0”或者“1”;
(2.5):计算当前元组t所满足的确定性查询条件的Def_Query值;将元组写入为该Def_Query值所准备的待压缩缓存块BlockDef_Query中,设定其序号为Block_IdDef_Query;
(2.6):将元组t的不确定性查询条件的值Undef_Vals以及Def_query值和Block_IdDef_Query插入到数据库索引表中;
(2.7):如果该Block_IdDef_Query所代表的压缩缓存块已满,则利用压缩算法对该缓存块进行压缩;将得到的Block_IdDef_Query以及压缩得到的地址AddressDef_Query写入地址表中,得到海量不完整数据软优化算法后的压缩数据和索引文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁大学,未经辽宁大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611081153.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据处理方法及装置
- 下一篇:一种固态硬盘地址映射表管理方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置