[发明专利]一种对数据进行去重的方法和设备在审
申请号: | 201310086212.1 | 申请日: | 2013-03-18 |
公开(公告)号: | CN104063374A | 公开(公告)日: | 2014-09-24 |
发明(设计)人: | 朱志强 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘 |
地址: | 英属开曼群岛大开曼*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 进行 方法 设备 | ||
技术领域
本申请涉及计算机技术领域,尤其涉及一种对数据进行去重的方法和设备。
背景技术
随着网络技术的不断发展,业务网站在运行过程中将会产生大量的业务数据,例如,在微博业务网站中登陆的用户发布微博时,微博业务网站将会产生大量的微博业务的发布数据,在购物网站中登陆的用户创建新的商品信息后,购物网站将会产生商品信息的创建数据等。
在将产生的业务数据的标题导入数据库中进行备份时,由于产生的业务数据可能出现重复,导致其标题也可能出现重复的情况,因此,在将标题导入至数据库时需要对待导入的标题进行去重处理。
目前的去重处理过程是基于标题的时效性进行,即,同一时间段内出现相同标题的情况视为标题重复,需对重复出现的标题进行去重,但不同时间段出现相同标题的情况不视为标题重复,无需对不同时间段出现的相同标题进行去重。例如,用户在2010年8月针对某一商品创建商品信息后,购物网站将会产生该商品信息的创建数据,其标题为XY;当用户在2013年1月针对同一商品创建内容相同的商品信息时,购物网站产生的创建数据的标题也为XY;此时,虽然出现了两个内容为XY的标题,但由于这两个标题分属于不同的时间段,因此,后产生的标题无需进行去重处理。
目前对待导入标题进行去重处理的方法主要包括以下步骤:
第一步:在初始状态下,用于导入标题的数据库为空,即没有导入的标题。
第二步:在第一次进行标题的导入过程时,确定本次待导入标题所属的时间段A,针对各待导入的标题,依次执行以下a、b和c操作:
a:针对某一待导入的标题,判断数据库中是否已有相同的标题;若有,则执行b,否则,执行c。
b:确定a中执行的待导入标题为时间段A中重复出现的标题,将其过滤。此时若还有未执行过的标题,则继续执行a,若所有标题执行完毕,则第二步结束。
c:确定a中执行的待导入的标题为时间段A中没有出现过的标题,将其导入数据库中,此时若还有未执行过的标题,则继续执行a,若所有标题执行完毕,则第二步结束。
通过上述第二步的方案,在数据库中导入了属于时间段A的标题,且导入的属于时间段A的标题不重复。
第三步:在第一次将标题导入数据库后,开辟字段来表示标题所属的时间段A。
第四步:在第二次进行标题的导入过程时,首先要确定第二次待导入标题所属的时间段B。
第五步:从数据库中查询出属于时间段B的标题。
若所述时间段A和时间段B是不同的时间段,则第五步中查询出属于时间段B的标题为空,第二次标题导入过程与第一次相同。
若所述时间段A和时间段B是相同的时间段,则第一次标题导入过程所导入的标题与第二次待导入的标题属于相同的时间段,本第五步中查询出的标题即为第一次标题导入过程所导入的标题。
第六步:针对第二次待导入的标题,依次执行以下d、e和f操作:
d:针对当前执行的标题,判断查询出的标题中是否已有相同的标题;若有,执行e,否则,执行f。
e:确定d中执行的标题为时间段B中重复出现的标题,将其过滤,此时若还有未执行过的标题,则继续执行d,若所有标题执行完毕,则第六步结束。
f:确定d中执行的标题为时间段B中没有出现过的标题,将其导入数据库中,并将其作为针对下一次执行标题的比较依据,在第五步查询出的标题中新增当前d中执行的标题。此时若还有未执行过的标题,则继续执行d,若所有标题执行完毕,则第六步结束。
将第二次待导入标题都执行上述d、e和f操作后,完成了第二次标题的导入过程。由于标题导入至数据库的过程可周期性或根据实际需求多次重复执行,因此,当第N次(N是正整数)需要将标题导入至数据库中的方式与第二次导入过程类似,首先确定待导入标题所属的时间段,然后从数据库中查询出所有属于该时间段的标题,并将查询出的标题作为比较对象,过滤出待导入标题中重复的标题,使得数据库中存储的针对某一时间段的标题始终不重复。
例如:数据库中已导入的标题信息如下:
属于时间段A的标题:XY和xyz;
属于时间段B的标题:XY和xy。
当前待导入的标题是XY、xz和xyz,其所属的时间段为B,则可从数据库中查询出已存储的属于时间段B的标题:XY和xy。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310086212.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:信息处理装置及信息处理系统
- 下一篇:报表设计方法和报表设计系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置