[发明专利]一种大数据用数据剔除整合系统在审

专利信息
申请号: 201911269635.0 申请日: 2019-12-11
公开(公告)号: CN111046030A 公开(公告)日: 2020-04-21
发明(设计)人: 姚欣;朱光明;卢正鸿 申请(专利权)人: 姚欣
主分类号: G06F16/215 分类号: G06F16/215;G06F16/22
代理公司: 合肥正则元起专利代理事务所(普通合伙) 34160 代理人: 韩立峰
地址: 230000 安徽省合肥*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 数据 剔除 整合 系统
【权利要求书】:

1.一种大数据用数据剔除整合系统,其特征在于,包括客户端、统计保存终端;

所述客户端为用户终端,用于客户录入用户数据信息,所述统计保存终端用于保存客户端所录入的数据,并对数据信息进行分类处理,所述统计保存终端还用于客户通过客户端访问统计保存终端所保存的数据,所述统计保存终端包括分类单元、重复数据剔除模块、存储分类模块、检索单元、反馈模块与综合存储单元,所述分类单元用于获取录入数据信息,并对录入数据信息进行初步分类处理,处理步骤表现为

步骤一:提取数据信息中所包含的省份信息;

步骤二:根据省份的划分,将属于同一省份下相关联的数据信息归类在一个省份下,并对数据信息做省份标记,将标记后的数据传输给重复数据剔除模块;

所述重复数据剔除模块用于对数据进行比对验证,将出现重复性的数据进行整合处理,具体的整合处理步骤如下:

T01:传输中的两个数据段分别用A、B表示,两个数据段均由多个数据块组成,通过数据块内容对A、B的关系进行判定;

T02:当数据段A由数据块A1、A2、A3、A4...An组成,数据段B由数据块B1、B2、B3、B4...Bn组成,A1=B1、A2=B2、A3=B3....An=Bn,判断为完全重复型数据,此时随机挑取一个数据段作为传输保存的数据;

T03:当数据段A由数据块A1、A2、A3、A4...An组成,数据段B由数据块Bs1、Bs2、Bs3、Bs4...Bsn组成,A1≠Bs1、A2≠Bs2、A3≠Bs3....An≠Bsn,判断为完全不重复型数据,此时数据段A与数据段B均作为传输保存的数据;

T04:当数据段A由数据块A1、A2、A3、A4...An组成,数据段B由数据块B1、Bs2、B3、Bs4...Bsn组成,A1=B1、A2≠Bs2、A3=B3、A4≠Bs4....An≠Bsn,其中A1=B1、A3=B3为不重复数据块,A2≠Bs2、A4≠Bs4、An≠Bsn为不重复数据块,两种情况交织在一起判断为交叉型重复数据,将数据段A作为补录数据段,数据段A的数据块中补充Bs2、Bs4、Bsn,此时数据段A包括A1、A2、A3、A4...An、Bs2、Bs4、Bsn,将数据段A作为传输保存的数据;

T05:每个作为传输保存的数据都会被打上编号,按传输顺序依次标记为#1、#2、#3...#n。

所述存储分类模块包括多个存储区,所述存储分类模块用于对整合后的数据进行多次分类处理,处理步骤具体表现为:

S01:获取同一省份下的信息数据;

S02:进一步在同一省份下对不同城市相关联的信息数据进行划分,即信息数据按照城市分类;

S03:获取同一城市相关联的信息数据,当省份数据标记为变量KCY时,则属于该省份下的城市数据依次标记为KCY1、KCY2、KCY3...KCYn;

S04:信息数据在进行地域分类的同时会标记上时间戳,即进一步对同一城市下的信息数据进行时间划分,具体为年份划分;

S05:从完成时间划分后的信息数据中获取简介词,作为与该信息数据相捆绑的简介词用于检索使用。

2.根据权利要求1所述的一种大数据用数据剔除整合系统,其特征在于,所述检索单元用于根据客户输入的关键词对存储分类模块中相关联的信息数据进行查找,关键词包括省份名、城市名、年份以及简介词。

3.根据权利要求1所述的一种大数据用数据剔除整合系统,其特征在于,所述反馈模块用于获取客户所反馈的数据问题,反馈编号是#1时,则表示与#1相关联的数据信息有误。

4.根据权利要求1所述的一种大数据用数据剔除整合系统,其特征在于,所述综合存储单元用于数据的备份,具体备份步骤包括:

K01:当步骤T02根据两个数据段判断为完全重复型数据时,随机挑取一个数据段传到存储分类模块中作为传输保存的数据并标记为#1,而另一个未被选取的数据段被标记为##1传输到综合存储单元中进行保存;

K02:当步骤T03根据两个数据段判断为完全不重复型数据时,分别标记为#2、#3传到存储分类模块中保存,相应的#2、#3对应的数据进行复制传到综合存储单元保存;

K03:当步骤T04根据两个数据段判断为交叉型重复数据时,两个数据段进行比对补充,形成新的数据段标记为#4传输至存储分类模块中存储,之前的两个数据段同标记为#4传输至综合存储单元进行保存;

K04:获取反馈编号,通过检索单元,分别获取存储分类模块、综合存储单元中相对应编号的数据信息。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于姚欣,未经姚欣许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911269635.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top