[发明专利]一种基于数据简并的大数据转换方法与装置有效
申请号: | 202111029797.4 | 申请日: | 2021-09-03 |
公开(公告)号: | CN113470831B | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 曾承 | 申请(专利权)人: | 武汉泰乐奇信息科技有限公司 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G06K9/62 |
代理公司: | 北京集智东方知识产权代理有限公司 11578 | 代理人: | 吴倩;龚建蓉 |
地址: | 430223 湖北省武汉市东湖新技术*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 转换 方法 装置 | ||
1.一种基于数据简并的大数据转换方法,其特征在于,应用于大数据转化终端,包括:
S1、接收来自于预设的多个数据传感器进行感测处理而得到的模拟信号集合,并根据预设的模数转化方法,对所述模拟信号集合中的模拟信号分别进行模数转化处理,以得到数字信号集合;
S2、根据预设的数据聚类方法,对所述数字信号集合进行聚类处理,以得到多个数据子集,并根据预设的相似度计算方法,对每个数据子集中的全部成员进行相似度计算处理,以得到与所述多个数据子集分别对应的多个相似度集合;
S3、根据所述多个相似度集合,从每个数据子集中分别筛选出一个标准数据,从而获取与所述多个数据子集一一对应的多个标准数据,并生成所述多个标准数据分别对应的代号;其中,标准数据指的是,与同一个数据子集中的其他成员之间的相似度值,均大于预设的相似度阈值的数据;
S4、采用预设的数据模拟方法,生成多个虚拟数字数据,并对所述多个虚拟数字数据进行人工标记处理,以将存在数字规律的虚拟数字数据标记上对应的标签,从而得到多个样本数据;其中,不存在数字规律的虚拟数字数据被默认标记上零号标签,具有不同数字规律的虚拟数字数据被标记上不同的标签;
S5、使用所述多个样本数据对预设的深度神经网络模型进行训练,以得到数字规律预测模型;其中,训练过程中采用反向传播算法来更新各层网络的参数;
S6、将所述数字信号集合中,除所述多个标准数据之外的其他数据,依次输入所述数字规律预测模型中进行处理,以得到所述数字规律预测模型对应输出的多个预测结果;其中,当预测结果为具有数字规律时,预测结果还附带有数字规律标签;
S7、将预测结果为不具有数字规律的数据构成一号数据集,并将预测结果为具有数字规律的数据构成二号数据集;
S8、根据预设的哈希算法,对所述二号数据集中的所有数据分别进行哈希计算,从而得到多个哈希值,并建立数据-哈希值-数字规律标签-数据子集-标准数据代号的映射关系;
S9、根据所述映射关系,对所述二号数据集中的所有数据进行数据简并处理,以得到多个三元素数据组合;其中,每个三元素数据组合由处于同一个映射关系中的哈希值、数字规律标签和标准数据代号构成;
S10、执行大数据存储操作,以存储所述一号数据集、所述多个标准数据和所述多个三元素数据组合。
2.根据权利要求1所述的基于数据简并的大数据转换方法,其特征在于,所述根据预设的相似度计算方法,对每个数据子集中的全部成员进行相似度计算处理,以得到与所述多个数据子集分别对应的多个相似度集合的步骤,包括:
S201、进行第一次划分操作,以对第一个数据子集中的全部成员分别进行t等分划分处理,从而对应得到多个二进制符号段序列;
S202、进行第一批相似度计算操作,以从所述多个二进制符号段序列中随机选出一个参考二进制符号段序列,并根据公式:
,
计算出参考二进制符号段序列与一个其他二进制符号段序列之间的相似度值Q,从而得到多个相似度值;其中,p为预设的大于1的参数,Wi为参考二进制符号段序列的第i个二进制符号段,Ei为另一个被计算的二进制符号段序列的第i个二进制符号段;
S203、进行第一次相似度集合构建操作,以将所述多个相似度值组成对应于第一个数据子集的第一个相似度集合;
S204、依次进行第二次划分操作、第二批相似度计算操作、第二次相似度集合构建操作、…、第m次划分操作、第m批相似度计算操作、第m次相似度集合构建操作,从而得到对应于第二个数据子集的第二个相似度集合、…、对应于第m个数据子集的第m个相似度集合;其中,共有m个数据子集,m为大于2的整数。
3.根据权利要求2所述的基于数据简并的大数据转换方法,其特征在于,所述根据所述多个相似度集合,从每个数据子集中分别筛选出一个标准数据,从而获取与所述多个数据子集一一对应的多个标准数据的步骤,包括:
S301、判断第一个相似度集合中的所有成员是否均大于预设的相似度阈值;
S302、若第一个相似度集合中的所有成员均大于预设的相似度阈值,则将所述参考二进制符号段序列作为从第一个数据子集中筛选出来的标准数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉泰乐奇信息科技有限公司,未经武汉泰乐奇信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111029797.4/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置