[发明专利]文本数据分析优化方法、系统、存储介质和计算机设备在审
申请号: | 201711262752.5 | 申请日: | 2017-12-04 |
公开(公告)号: | CN108255603A | 公开(公告)日: | 2018-07-06 |
发明(设计)人: | 林克全;邓凡;杨杰;胡璇;赵静 | 申请(专利权)人: | 广州供电局有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06F17/22 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 黄晓庆 |
地址: | 510620 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本数据 文本数据分析 切割 处理器核心 计算机设备 并行处理 存储介质 子数据 处理器 分析 获取处理器 输入处理器 分析数据 计算资源 数据切割 大文本 数据量 有效地 多核 申请 优化 耗时 合并 | ||
本申请涉及一种文本数据分析优化方法、系统、存储介质和计算机设备。该方法包括:获取处理器核心数;根据处理器核心数确定文本数据的切割数;切割文本数据,得到子文本数据;将子文本数据输入处理器进行并行处理,得到分析子数据;将分析子数据合并得到分析数据。本申请的方案通过将待分析的文本数据根据处理器的核心数进行切割,可以将大文本数据切割成若干数据量较小的子文本数据,由处理器多核进行并行处理,充分利用了处理器核心的计算资源,能够减少分析的耗时,有效地提高文本数据分析的效率。
技术领域
本申请涉及数据分析技术领域,特别是涉及一种文本数据分析优化方法、系统、存储介质和计算机设备。
背景技术
数据分析是指用适当的统计方法对收集来的大量数据进行分析,以求最大化地开发数据资料的功能,发挥数据的作用,即数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。广义的数据分析包含数据挖掘和统计,数据挖掘是面对海量数据时的有效工具,而数据统计是为分析过程提供可靠模型和结果检验的有效工具。
数据分析对象包括各类信息数据,如文本、图像和音频等,其中,文本数据包括计算机系统的数据记录文件,如日志文件,其在积累一段时间之后可能会快速增大,当需要抓取大文本数据文件中的部分数据或对大文本数据文件进行过滤、分析及统计时,由于数据量过大,而服务器资源有限,导致处理过程效率低下,耗时长。
发明内容
基于此,有必要针对上述问题,提供一种能有效提高文本数据分析效率的文本数据分析优化方法、系统、存储介质和计算机设备。
一种文本数据分析优化方法,包括:
获取处理器核心数;
根据处理器核心数,确定文本数据的切割数;
切割文本数据,得到子文本数据;
将子文本数据输入处理器进行并行处理,得到分析子数据;
将分析子数据合并得到分析数据。
在一个实施例中,切割文本数据,得到子文本数据的步骤包括:
获取文本数据大小,根据文本数据大小与切割数的比值,得到子文本数据大小;
读取文本数据;
每当读取到与子文本数据大小相等的数据量时,切割文本数据,得到子文本数据。
在一个实施例中,读取文本数据的步骤包括:
采用多进程分块读取方式读取文本数据。
在一个实施例中,读取文本数据的步骤包括:
根据各处理器核心建立读取进程;
根据切割数和子文本数据大小确定各个读取进程的读取起始位置;
根据读取起始位置,通过读取进程读取文本数据。
在一个实施例中,读取文本数据的步骤还包括:
获取处理器核心的可用内存大小;
根据子文本数据大小与可用内存大小的比值调整读取次数。
在一个实施例中,每当读取到与子文本数据大小相等的数据量时,切割文本数据,得到子文本数据的步骤包括:
当读取到与子文本数据大小相等的数据量时,获取当前读取数据在文本数据中的位置;
当当前读取数据在文本数据中的位置为行间位置时,继续读取直至文本数据当前行的行尾位置,切割文本数据;
根据当前切割位置进行下一次读取,直至读取完文本数据,得到子文本数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州供电局有限公司,未经广州供电局有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711262752.5/2.html,转载请声明来源钻瓜专利网。