[发明专利]一种大数据用数据剔除整合系统在审
申请号: | 201911269635.0 | 申请日: | 2019-12-11 |
公开(公告)号: | CN111046030A | 公开(公告)日: | 2020-04-21 |
发明(设计)人: | 姚欣;朱光明;卢正鸿 | 申请(专利权)人: | 姚欣 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/22 |
代理公司: | 合肥正则元起专利代理事务所(普通合伙) 34160 | 代理人: | 韩立峰 |
地址: | 230000 安徽省合肥*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 剔除 整合 系统 | ||
1.一种大数据用数据剔除整合系统,其特征在于,包括客户端、统计保存终端;
所述客户端为用户终端,用于客户录入用户数据信息,所述统计保存终端用于保存客户端所录入的数据,并对数据信息进行分类处理,所述统计保存终端还用于客户通过客户端访问统计保存终端所保存的数据,所述统计保存终端包括分类单元、重复数据剔除模块、存储分类模块、检索单元、反馈模块与综合存储单元,所述分类单元用于获取录入数据信息,并对录入数据信息进行初步分类处理,处理步骤表现为
步骤一:提取数据信息中所包含的省份信息;
步骤二:根据省份的划分,将属于同一省份下相关联的数据信息归类在一个省份下,并对数据信息做省份标记,将标记后的数据传输给重复数据剔除模块;
所述重复数据剔除模块用于对数据进行比对验证,将出现重复性的数据进行整合处理,具体的整合处理步骤如下:
T01:传输中的两个数据段分别用A、B表示,两个数据段均由多个数据块组成,通过数据块内容对A、B的关系进行判定;
T02:当数据段A由数据块A1、A2、A3、A4...An组成,数据段B由数据块B1、B2、B3、B4...Bn组成,A1=B1、A2=B2、A3=B3....An=Bn,判断为完全重复型数据,此时随机挑取一个数据段作为传输保存的数据;
T03:当数据段A由数据块A1、A2、A3、A4...An组成,数据段B由数据块Bs1、Bs2、Bs3、Bs4...Bsn组成,A1≠Bs1、A2≠Bs2、A3≠Bs3....An≠Bsn,判断为完全不重复型数据,此时数据段A与数据段B均作为传输保存的数据;
T04:当数据段A由数据块A1、A2、A3、A4...An组成,数据段B由数据块B1、Bs2、B3、Bs4...Bsn组成,A1=B1、A2≠Bs2、A3=B3、A4≠Bs4....An≠Bsn,其中A1=B1、A3=B3为不重复数据块,A2≠Bs2、A4≠Bs4、An≠Bsn为不重复数据块,两种情况交织在一起判断为交叉型重复数据,将数据段A作为补录数据段,数据段A的数据块中补充Bs2、Bs4、Bsn,此时数据段A包括A1、A2、A3、A4...An、Bs2、Bs4、Bsn,将数据段A作为传输保存的数据;
T05:每个作为传输保存的数据都会被打上编号,按传输顺序依次标记为#1、#2、#3...#n。
所述存储分类模块包括多个存储区,所述存储分类模块用于对整合后的数据进行多次分类处理,处理步骤具体表现为:
S01:获取同一省份下的信息数据;
S02:进一步在同一省份下对不同城市相关联的信息数据进行划分,即信息数据按照城市分类;
S03:获取同一城市相关联的信息数据,当省份数据标记为变量KCY时,则属于该省份下的城市数据依次标记为KCY1、KCY2、KCY3...KCYn;
S04:信息数据在进行地域分类的同时会标记上时间戳,即进一步对同一城市下的信息数据进行时间划分,具体为年份划分;
S05:从完成时间划分后的信息数据中获取简介词,作为与该信息数据相捆绑的简介词用于检索使用。
2.根据权利要求1所述的一种大数据用数据剔除整合系统,其特征在于,所述检索单元用于根据客户输入的关键词对存储分类模块中相关联的信息数据进行查找,关键词包括省份名、城市名、年份以及简介词。
3.根据权利要求1所述的一种大数据用数据剔除整合系统,其特征在于,所述反馈模块用于获取客户所反馈的数据问题,反馈编号是#1时,则表示与#1相关联的数据信息有误。
4.根据权利要求1所述的一种大数据用数据剔除整合系统,其特征在于,所述综合存储单元用于数据的备份,具体备份步骤包括:
K01:当步骤T02根据两个数据段判断为完全重复型数据时,随机挑取一个数据段传到存储分类模块中作为传输保存的数据并标记为#1,而另一个未被选取的数据段被标记为##1传输到综合存储单元中进行保存;
K02:当步骤T03根据两个数据段判断为完全不重复型数据时,分别标记为#2、#3传到存储分类模块中保存,相应的#2、#3对应的数据进行复制传到综合存储单元保存;
K03:当步骤T04根据两个数据段判断为交叉型重复数据时,两个数据段进行比对补充,形成新的数据段标记为#4传输至存储分类模块中存储,之前的两个数据段同标记为#4传输至综合存储单元进行保存;
K04:获取反馈编号,通过检索单元,分别获取存储分类模块、综合存储单元中相对应编号的数据信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于姚欣,未经姚欣许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911269635.0/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置