[发明专利]海量数据的清洗方法及装置在审
申请号: | 201910572435.6 | 申请日: | 2019-06-28 |
公开(公告)号: | CN110334081A | 公开(公告)日: | 2019-10-15 |
发明(设计)人: | 张鹏程;柳超 | 申请(专利权)人: | 北京天眼查科技有限公司 |
主分类号: | G06F16/21 | 分类号: | G06F16/21;G06F16/215 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张润 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 清洗 数据中心 中间件 拉取 海量数据 并行处理 发送消息 获取请求 清洗处理 清洗效率 消息存储 用户体验 预设 数据库 存储 返回 | ||
本发明提出一种海量数据的清洗方法及装置,其中方法应用于消息消费者,包括:向预设的中间件发送消息获取请求;中间件用于从数据中心批量获取待清洗消息,并进行存储;接收中间件返回的待清洗消息;对待清洗消息进行清洗处理,得到清洗后消息;根据清洗后消息的标识,将清洗后消息存储至对应的数据库中,从而能够从数据中心批量拉取待清洗消息,缩短总的拉取时间,且拉取和清洗可以并行处理,从而缩短清洗时间,提高清洗效率,确保数据中心的数据无法得到及时清洗。进而提供数据时,提供清洗后数据,提高用户体验。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种海量数据的清洗方法及装置。
背景技术
目前,海量数据的清洗方法中,消息消费者每次从数据中心拉取一条消息,清洗完成后,向数据中心返回确认信息,以便拉取下一条消息进行清洗处理。上述方法中,消息消费者每次只能拉取一条消息,拉取次数多,导致总的拉取时间长;且在上一条消息清洗完成且返回确认信息后,才拉取下一条消息进行清洗处理,处理时延较高,从而清洗时间长,清洗效率差,导致数据中心的数据无法得到及时清洗。进而提供数据时,提供的数据仍然是待清洗数据,用户体验差。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种海量数据的清洗方法,用于解决现有技术中数据清洗时间长,效率差的问题。
本发明的第二个目的在于提出一种海量数据的清洗装置。
本发明的第三个目的在于提出另一种海量数据的清洗装置。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
本发明的第五个目的在于提出一种计算机程序产品。
为达上述目的,本发明第一方面实施例提出了一种海量数据的清洗方法,应用于消息消费者,包括:
向预设的中间件发送消息获取请求;所述中间件,用于从数据中心批量获取待清洗消息,并进行存储;
接收所述中间件返回的待清洗消息;
对所述待清洗消息进行清洗处理,得到清洗后消息;
根据所述清洗后消息的标识,将所述清洗后消息存储至对应的数据库中。
进一步地,所述向预设的中间件发送消息获取请求之前,还包括:
接收配置信息,所述配置信息包括:所述中间件的标识;
根据所述中间件的标识向预设的中间件发送消息获取请求以获取待清洗消息。
进一步地,所述消息消费者设置有多个线程,所述多个线程并行对所述消息消费者接收到的待清洗消息进行清洗处理。
进一步地,所述中间件,为阻塞队列或者redis集群;
所述阻塞队列位于所述消息消费者的本地服务器上;
所述redis集群与所述消息消费者的本地服务器连接。
进一步地,所述对所述待清洗消息进行清洗处理,得到清洗后消息,包括:
获取所述待清洗消息的标识;
根据所述待清洗消息的标识,确定所述待清洗消息所属的第一业务;
根据所述第一业务对应的清洗操作对所述待清洗消息进行清洗处理,得到清洗后消息。
进一步地,所述根据所述清洗后消息的标识,将所述清洗后消息存储至对应的数据库中,包括:
根据所述清洗后消息的标识,获取所述清洗后消息对应的数据库;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京天眼查科技有限公司,未经北京天眼查科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910572435.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种实现自主学习的知识库构建方法
- 下一篇:一种数据库的无损迁移方法及装置