[发明专利]一种应用于海量不完整数据的压缩优化方法有效

申请号：	201611081153.9	申请日：	2016-11-30
公开（公告）号：	CN106598492B	公开（公告）日：	2019-04-09
发明（设计）人：	王妍;孙凌峰;李玉诺;王俊陆;宋宝燕	申请（专利权）人：	辽宁大学
主分类号：	G06F3/06	分类号：	G06F3/06;G06F16/13;G06F16/172
代理公司：	沈阳杰克知识产权代理有限公司 21207	代理人：	罗莹
地址：	110000 辽宁***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种应用于海量完整数据压缩优化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种应用于海量不完整数据的压缩优化方法，其特征在于：包括硬优化方法(1)、软优化方法(2)；

所述的硬优化方法(1)实现步骤如下：

(1.1)：确定属性字段的编码方式：在一个元组中，当属性值字段没有发生缺失时，根据确定性查询条件，利用位编码形式对属性值字段进行编码，利用“0”，“1”对元组中确定性查询条件对应的属性字段进行编码；当属性值发生缺失时候，利用“*”对属性值缺失字段进行编码；

(1.2)：确定Def_query值：不管当前元组中是否存在属性值缺失字段，根据(1.1)中的编码方式，计算当前元组t所满足的确定性查询条件所对应的Def_Query值；

(1.3)：将元组t写入为该Def_Query值所准备的待压缩缓存块Block_{Def_Query}中，设定其序号为Block_Id_{Def_Query}；将元组t的不确定性查询条件的值Undef_Vals以及Def_Query值和缓存块号Block_Id_{Def_Query}插入到数据库索引表中；

(1.4)：如果Block_Id_{Def_Query}所代表的压缩缓存块已满，则利用压缩算法对该缓存块进行压缩；将得到的Block_Id_{Def_Query}以及压缩得到的地址Address_{Def_Query}写入压缩地址表中，得到使用硬优化算法后的压缩数据和索引文件；

所述的Def_Query代表用户使用的确定性查询条件，Block代表压缩缓存块，Block_Id代表数据元组所在的缓存块的序号，Undef_Vals代表不确定性查询条件所对应的属性值，Address代表缓存块压缩后的压缩文件地址；

所述的软优化方法(2)实现步骤如下：

(2.1)：确定海量不完整数据集中确定性查询条件所对应属性的属性主观权重；通过计算用户的频繁查询条件的使用概率，计算得到不完整数据集中相关属性的主观权重；

(2.2)：计算不完整数据集中属性的客观权重，步骤具体为：

①查询结果数值化：将查询结果集中的非数值属性列删除，使结果集中都是数值型数据；

②结果集划分：将数值化后的结果集进行划分，将其划分为完备结果集和不完备结果集；此时数据集中不再存在缺失数据；

③条件属性集合和决策属性集合确定：当一个结果集不存在明显的决策属性集合时，将结果集中的全部属性集合既作为条件属性集合又作为决策属性集合；

④属性客观权重计算：通过利用粗糙集中相关理论求得结果集中各个属性的属性重要性，同时计算各个属性对应的属性客观权重；

(2.3)：属性综合权重计算：通过利用用户偏好系数，对各个属性进行属性综合权重的计算，得到属性的综合权重，具体为：

(2.3.1)：属性主观权重计算：通过计算用户的频繁查询条件的使用概率，

计算得到不完整数据集中相关属性的主观权重：

其中p(i)代表属性i的属性主观权重，t(i)代表i属性使用的次数，代表压缩过程中确定性查询条件所对应的所有属性的使用次数之和；

(2.3.2)：属性客观权重计算：结合粗糙集理论，对不完整数据集中属性客观权重进行计算，计算步骤如下：

①确定等价关系：首先得到全部确定性查询条件所对应的属性集合U的等价关系IND(U)，依次删除集合U中每一个属性i(i∈U)，得到删除该属性后的属性集合U-i的等价关系IND(U-i)；

②确定属性的依赖度，首先得到全部属性集合U对的依赖度为γ_U(U)＝1，接着可以得到在删除属性i后，集合U中剩余属性集合的依赖度为：

其中U代表数据集中全部的属性集合，i代表每次要删除的属性，POS_U-{i}(U)代表集合U的U-{i}正域，|POS_U-{i}(U)|代表正域中的元组数，|U|代表U中的元组数；

③利用第二步所得到的γ_U(U)和γ_U-{i}(U)，可以求得在本技术中的属性重要性计算方法：SGF(i,U,U)＝γ_U(U)-γ_U-{i}(U)

其中SGF(i,U,U)代表属性i加入集合U中对分类变化的影响重要程度，即是属性i的属性重要性，γ_U(U)代表属性i存在于U中时，U对U的属性依赖度，γ_U-{i}(U)代表集合U对U中除i以外的其它属性集合U-{i}的属性依赖度；

④依次计算各个属性i对于属性集合U的属性重要性，利用属性重要性的占比计算它们各自的属性客观权重ω(i)，计算方法如下：

其中SGF(i,U,U)代表属性i的属性重要性，代表U中所有属性的属性重要性之和；

(2.3.3)：属性综合权重计算：通过利用用户偏好系数，对各个属性进行属性综合权重的计算，得到属性的综合权重；

cw(i)＝αp(i)+(1-α)×ω(i)

其中α为用户的偏好系数，cw(i)代表属性综合权重，p(i)代表属性主观权重，ω(i)代表属性客观权重；

(2.4)：结合属性综合权重以及海量不完整数据硬优化方法中的属性字段编码方式，重新设计元组中属性字段的编码方式，对元组中的确定性查询条件所对应的属性字段进行编码；

①设置属性综合权重的权重阈值，比较Def_query对应的属性集合中各个属性的综合权重与权重阈值y的大小关系；

②对于一个元组t，如果其中的属性综合权重大于y，那么当它发生属性值缺失时候，该属性需要被编码为“0”和“1”；如果属性值未发生缺失，那么该属性需要根据确定性查询条件，编码为“0”或者“1”；

③如果其中的属性综合权重小于y，那么当它发生属性值缺失时候，该属性需要被编码为“*”；如果属性值未发生缺失，那么该属性需要根据确定性查询条件，编码为“0”或者“1”；

(2.5)：计算当前元组t所满足的确定性查询条件的Def_Query值；将元组写入为该Def_Query值所准备的待压缩缓存块Block_{Def_Query}中，设定其序号为Block_Id_{Def_Query}；

(2.6)：将元组t的不确定性查询条件的值Undef_Vals以及Def_query值和Block_Id_{Def_Query}插入到数据库索引表中；

(2.7)：如果该Block_Id_{Def_Query}所代表的压缩缓存块已满，则利用压缩算法对该缓存块进行压缩；将得到的Block_Id_{Def_Query}以及压缩得到的地址Address_{Def_Query}写入地址表中，得到海量不完整数据软优化算法后的压缩数据和索引文件。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于辽宁大学，未经辽宁大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201611081153.9/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F3-00 用于将所要处理的数据转变成为计算机能够处理的形式的输入装置；用于将数据从处理机传送到输出设备的输出装置，例如，接口装置
G06F3-01 .用于用户和计算机之间交互的输入装置或输入和输出组合装置
G06F3-05 .在规定的时间间隔上，利用模拟量取样的数字输入
G06F3-06 .来自记录载体的数字输入，或者到记录载体上去的数字输出
G06F3-09 .到打字机上去的数字输出
G06F3-12 .到打印装置上去的数字输出

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种应用于海量不完整数据的压缩优化方法有效

专利文献下载