[发明专利]文本数据分析优化方法、系统、存储介质和计算机设备在审

申请号：	201711262752.5	申请日：	2017-12-04
公开（公告）号：	CN108255603A	公开（公告）日：	2018-07-06
发明（设计）人：	林克全;邓凡;杨杰;胡璇;赵静	申请（专利权）人：	广州供电局有限公司
主分类号：	G06F9/50	分类号：	G06F9/50;G06F17/22
代理公司：	广州华进联合专利商标代理有限公司 44224	代理人：	黄晓庆
地址：	510620 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本数据文本数据分析切割处理器核心计算机设备并行处理存储介质子数据处理器分析获取处理器输入处理器分析数据计算资源数据切割大文本数据量有效地多核申请优化耗时合并
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及一种文本数据分析优化方法、系统、存储介质和计算机设备。该方法包括：获取处理器核心数；根据处理器核心数确定文本数据的切割数；切割文本数据，得到子文本数据；将子文本数据输入处理器进行并行处理，得到分析子数据；将分析子数据合并得到分析数据。本申请的方案通过将待分析的文本数据根据处理器的核心数进行切割，可以将大文本数据切割成若干数据量较小的子文本数据，由处理器多核进行并行处理，充分利用了处理器核心的计算资源，能够减少分析的耗时，有效地提高文本数据分析的效率。

技术领域

本申请涉及数据分析技术领域，特别是涉及一种文本数据分析优化方法、系统、存储介质和计算机设备。

背景技术

数据分析是指用适当的统计方法对收集来的大量数据进行分析，以求最大化地开发数据资料的功能，发挥数据的作用，即数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。广义的数据分析包含数据挖掘和统计，数据挖掘是面对海量数据时的有效工具，而数据统计是为分析过程提供可靠模型和结果检验的有效工具。

数据分析对象包括各类信息数据，如文本、图像和音频等，其中，文本数据包括计算机系统的数据记录文件，如日志文件，其在积累一段时间之后可能会快速增大，当需要抓取大文本数据文件中的部分数据或对大文本数据文件进行过滤、分析及统计时，由于数据量过大，而服务器资源有限，导致处理过程效率低下，耗时长。

发明内容

基于此，有必要针对上述问题，提供一种能有效提高文本数据分析效率的文本数据分析优化方法、系统、存储介质和计算机设备。

一种文本数据分析优化方法，包括：

获取处理器核心数；

根据处理器核心数，确定文本数据的切割数；

切割文本数据，得到子文本数据；

将子文本数据输入处理器进行并行处理，得到分析子数据；

将分析子数据合并得到分析数据。

在一个实施例中，切割文本数据，得到子文本数据的步骤包括：

获取文本数据大小，根据文本数据大小与切割数的比值，得到子文本数据大小；

读取文本数据；