[发明专利]海量数据的清洗方法及装置在审
申请号: | 201910572435.6 | 申请日: | 2019-06-28 |
公开(公告)号: | CN110334081A | 公开(公告)日: | 2019-10-15 |
发明(设计)人: | 张鹏程;柳超 | 申请(专利权)人: | 北京天眼查科技有限公司 |
主分类号: | G06F16/21 | 分类号: | G06F16/21;G06F16/215 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张润 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 清洗 数据中心 中间件 拉取 海量数据 并行处理 发送消息 获取请求 清洗处理 清洗效率 消息存储 用户体验 预设 数据库 存储 返回 | ||
1.一种海量数据的清洗方法,应用于消息消费者,其特征在于,包括:
向预设的中间件发送消息获取请求;所述中间件,用于从数据中心批量获取待清洗消息,并进行存储;
接收所述中间件返回的待清洗消息;
对所述待清洗消息进行清洗处理,得到清洗后消息;
根据所述清洗后消息的标识,将所述清洗后消息存储至对应的数据库中。
2.根据权利要求1所述的方法,其特征在于,所述向预设的中间件发送消息获取请求之前,还包括:
接收配置信息,所述配置信息包括:所述中间件的标识;
根据所述中间件的标识向预设的中间件发送消息获取请求以获取待清洗消息。
3.根据权利要求1所述的方法,其特征在于,
所述消息消费者设置有多个线程,所述多个线程并行对所述消息消费者接收到的待清洗消息进行清洗处理。
4.根据权利要求1所述的方法,其特征在于,所述中间件,为阻塞队列或者redis集群;
所述阻塞队列位于所述消息消费者的本地服务器上;
所述redis集群与所述消息消费者的本地服务器连接。
5.根据权利要求1所述的方法,其特征在于,所述对所述待清洗消息进行清洗处理,得到清洗后消息,包括:
获取所述待清洗消息的标识;
根据所述待清洗消息的标识,确定所述待清洗消息所属的第一业务;
根据所述第一业务对应的清洗操作对所述待清洗消息进行清洗处理,得到清洗后消息。
6.根据权利要求1所述的方法,其特征在于,所述根据所述清洗后消息的标识,将所述清洗后消息存储至对应的数据库中,包括:
根据所述清洗后消息的标识,获取所述清洗后消息对应的数据库;
将对应的数据库相同的清洗后消息进行整合;
判断整合后的清洗后消息的数量是否满足第一预设数量;
若整合后的清洗后消息的数量满足第一预设数量,则将整合后的清洗后消息存储到清洗后消息对应的数据库中。
7.根据权利要求1所述的方法,其特征在于,所述中间件从数据中心批量获取待清洗消息的过程为,
实时判断所述中间件的空闲存储位置能否存储第二预设数量的消息;
若所述中间件的空闲存储位置能够存储第二预设数量的消息,则所述中间件从数据中心获取一个批次的待清洗消息,并进行存储;
存储成功后,向数据中心返回确认信息。
8.一种海量数据的清洗装置,应用于消息消费者,其特征在于,包括:
发送模块,用于向预设的中间件发送消息获取请求;所述中间件,用于从数据中心批量获取待清洗消息,并进行存储;
接收模块,用于接收所述中间件返回的待清洗消息;
处理模块,用于对所述待清洗消息进行清洗处理,得到清洗后消息;
存储模块,用于根据所述清洗后消息的标识,将所述清洗后消息存储至对应的数据库中。
9.根据权利要求8所述的装置,其特征在于,所述接收模块还用于,
接收配置信息,所述配置信息包括:所述中间件的标识;
根据所述中间件的标识向预设的中间件发送消息获取请求以获取待清洗消息。
10.根据权利要求8所述的装置,其特征在于,所述消息消费者设置有多个线程,所述多个线程并行对所述消息消费者接收到的待清洗消息进行清洗处理。
11.根据权利要求8所述的装置,其特征在于,所述中间件,为阻塞队列或者redis集群;
所述阻塞队列位于所述消息消费者的本地服务器上;
所述redis集群与所述消息消费者的本地服务器连接。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京天眼查科技有限公司,未经北京天眼查科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910572435.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种实现自主学习的知识库构建方法
- 下一篇:一种数据库的无损迁移方法及装置