[发明专利]基于内存的数据处理方法及装置在审
申请号: | 202011620449.X | 申请日: | 2020-12-30 |
公开(公告)号: | CN112667859A | 公开(公告)日: | 2021-04-16 |
发明(设计)人: | 吴明星;王星宇;李纪洲 | 申请(专利权)人: | 北京久其软件股份有限公司 |
主分类号: | G06F16/901 | 分类号: | G06F16/901;G06F9/50;G06F9/54 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 周永君;叶明川 |
地址: | 100082 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 内存 数据处理 方法 装置 | ||
本发明提供了一种基于内存的数据处理方法及装置。所述方法包括:将从数据接口获取的数据逐行加载至预先存储于内存中的数据集模型中,并确定与各行数据对应的元信息;其中,所述元信息包括基础属性及扩展属性;根据所述元信息,确定各行数据对应的索引项及字典条目,并将所述元信息、索引项及字典条目输入至所述数据集模型中;利用所述数据集模型进行数据计算,得到计算结果。本发明利用数据的元信息,结合实际的数据,赋予数据更多含义,有效增强数据分析及计算的能力,支持多维分析场景,且计算效率高,通过在内存中定义的数据集结构,实现了更高的访问性能。
技术领域
本发明涉及数据分析技术领域,尤指一种基于内存的数据处理方法及装置。
背景技术
企业生产过程中,会产生大量数据。通过对这些数据进行分析,可以为企业提供指导意见。然后大量的数据在进行分析时,也给企业带来一定的难度,特别是对多维数据进行分析时,常规的分析方法,丧失了一定的灵活性,并存在性能问题,给生产造成负面影响。
近年来,数据分析也越来越被企业重视,针对数据分析的产品和技术也层出不穷,多数技术都还是基于数据本身进行运算,缺乏对一些数据特征的描述,从而影响了数据分析的效果,分析的范围存在一定的局限性。特别是针对多维数据分析场景,数据本身具备更多的含义和关联特性。比如说,生产记录数据中,包含有时间字段的数据、产品记录的数据、生产信息的数据等等,通过时间字段,可以看出数据的时间粒度,利用连续的时间序列,进行趋势分析,也可以根据不同的时间粒度对数据进行汇总,求同比或环比;同样的,通过产品数据,可以进行产品汇总。按照传统思路,为了实现这些功能,需要针对每个场景进行编程实现,或者书写SQL进行操作。这些方式使用难度大,并且无法确保效率,而且维护性比较差。
目前市面上实现数据分析的方法大致有如下几种:1、数据存储在数据库中,上层业务通过书写SQL语句,直接从数据库中进行查询,并将结果展示到界面。这种方法通过书写数据库SQL来实现,该方法根据业务需要,书写相应的SQL以及存储过程,实现汇总查询功能。该方法存在的问题包括:支持场景少,由于受限制于数据库,很多多维分析无法支持;书写难度大,大部分数据库提供的分析函数有限,如果想实现复杂分析,特别是业务相关分析,需要嵌套多个函数,有些甚至需要自定义函数才能完成;性能低,由于分析中使用大量函数运算,这些运算会导致性能低下。2、通过提前规划好进行多维分析的数据结构,然后生成各类聚合表,并基于这些聚合表进行查询。这种方法该方法首先针对需要分析的数据做预处理,通过ETL工具或者通过编码方法,生成子表、或者聚合表等中间表,生成的逻辑是基于需要分析的主题来决定。该方法存在的问题包括:数据需要中间落地,无法做到实时;汇总目标数据比较固定,无法实现即席查询的功能;整体技术方案以时间和空间换取性能上的提升,需大量时间和空间,效率低;多维分析场景复杂,大部分计算需要做定制开发才能完成;维护成本高,需要做很多ETL过程。3、通过分布式计算框架,如spark,将数据提交给分布式集群,然后通过多个阶段运算,得到最终的计算结果。这种方法借助分布式内存计算框架,将需要分析的数据作为输入源,然后通过编写分布式计算脚本或函数,提交给分布式引擎进行计算。该方法存在的问题包括:架构比较复杂,维护难度大,适用超大规模的数据计算;对硬件资源要求高,需要更好的硬件资源;数据预热环节较慢,对于中小规模的数据查询,没有优势;多维分析场景复杂,大部分计算需要做定制开发才能完成。
发明内容
针对现有技术存在的问题,本发明实施例的主要目的在于提供一种基于内存的数据处理方法及装置,有效增强数据分析的能力,实现更高的访问性能。
为了实现上述目的,本发明实施例提供一种基于内存的数据处理方法,所述方法包括:
将从数据接口获取的数据逐行加载至预先存储于内存中的数据集模型中,并确定与各行数据对应的元信息;
根据所述元信息,确定各行数据对应的索引项及字典条目,并将所述元信息、索引项及字典条目输入至所述数据集模型中;
利用所述数据集模型进行数据计算,得到计算结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京久其软件股份有限公司,未经北京久其软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011620449.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于PHP实现页面多国语言切换的方法
- 下一篇:多面散热器