[发明专利]一种大数据统计方法和装置在审

申请号：	202110528336.5	申请日：	2021-05-14
公开（公告）号：	CN113377829A	公开（公告）日：	2021-09-10
发明（设计）人：	刘小林;何鹏	申请（专利权）人：	中国民生银行股份有限公司
主分类号：	G06F16/2458	分类号：	G06F16/2458;G06F16/2457;G06F16/28;G06F16/27;G06F16/25
代理公司：	北京润泽恒知识产权代理有限公司 11319	代理人：	莎日娜
地址：	100031 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种大数据统计方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例提供了一种大数据统计方法和装置，所述方法包括：从分布式文件系统HDFS中获取数据集，然后根据预设的配置文件的分类信息，对数据集的数据进行分类，得到多个类型的数据子集，接着根据预设的配置文件的过滤信息，分别对多个类型的数据子集进行过滤，得到多个过滤后的数据子集，最后对多个过滤后的数据子集进行数据统计。本发明实施例通过预设的配置文件自动对大数据进行分类、过滤和统计，实现不同的业务需求，无需开发人员重复编写类似的代码，从而简化了开发流程，缩短了开发周期、提高了开发效率。

技术领域

本发明涉及大数据技术领域，特别是涉及一种大数据统计方法和一种大数据统计装置。

背景技术

大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，通过大数据统计可以获得用户需要的信息，例如了解消费者的喜好和需求，从而形成精准营销，大大提高生产能力，为企业带来更多的商业价值。

通常地，不同的业务需求的开发，往往都会重复出现类似的代码，开发人员实现不同的业务需求，需要重复编写多次类似的代码，导致开发流程繁琐、开发周期长、开发效率低。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种大数据统计方法和相应的一种大数据统计装置。

为了解决上述问题，本发明实施例公开了一种大数据统计方法，应用于大数据统计系统，所述大数据统计系统存储有预设的配置文件，所述大数据统计系统与分布式文件系统HDFS通信连接，所述方法包括：

从所述分布式文件系统HDFS中获取数据集；

根据所述预设的配置文件的分类信息，对所述数据集的数据进行分类，得到多个类型的数据子集；

根据所述预设的配置文件的过滤信息，分别对所述多个类型的数据子集进行过滤，得到多个过滤后的数据子集；

对所述多个过滤后的数据子集进行数据统计。