[发明专利]基于识别和聚合算法的数据文件处理方法、装置和设备有效

申请号：	202211320722.6	申请日：	2022-10-26
公开（公告）号：	CN115454356B	公开（公告）日：	2023-01-24
发明（设计）人：	滕济可;刘亚猛	申请（专利权）人：	互联时刻（北京）信息科技有限公司
主分类号：	G06F3/06	分类号：	G06F3/06
代理公司：	成都顶峰专利事务所(普通合伙) 51224	代理人：	冉丽
地址：	100000 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于识别聚合算法数据文件处理方法装置设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了基于识别和聚合算法的数据文件处理方法、装置和设备，方法包括：获取目标数据项集合，并基于简码索引规则建立目标数据项集合的多个存储区块；将待处理的数据文件进行分块，并对每一数据块的数据项进行初步识别；基于识别算法对数据块中每一数据项所对应的存储区块进行定位，并将每一数据项与对应存储区块中的目标数据项进行逐项识别匹配，将该数据项收录至对应的数据子集中；对每一数据子集中的数据项进行排序，将所有数据子集进行聚合。本发明能够极大减少数据项的重复比对，进而减少了资源浪费。

技术领域

本发明属于数据处理技术领域，具体涉及基于识别和聚合算法的数据文件处理方法、装置和设备。

背景技术

现有技术中，从数据文件内识别出指定数据项的处理方法，通常有两种处理方法，一种是根据要识别的数据项在数据文件中进行逐个全文扫描，这种方式要求识别每一数据项均需要对数据文件进行一次全文扫描；另一种是将数据文件划分为多个数据块，同样需要对待识别的数据项进行逐个识别处理。可见，上述两种方式均存在大量的重复比对操作，由此导致了大量的算力和存储空间的浪费，进而造成了大量的资源耗费。

发明内容

本发明的目的是提供基于识别和聚合算法的数据文件处理方法、装置和设备，用以解决现有技术中存在大量的重复比对操作，由此导致了大量的算力和存储空间的浪费，进而造成了大量的资源耗费的技术问题。

为了实现上述目的，本发明采用以下技术方案：

第一方面提供一种基于识别和聚合算法的数据文件处理方法，包括：

获取目标数据项集合，并基于简码索引规则建立所述目标数据项集合的多个存储区块，其中，每一简码索引对应一个存储区块；

将待处理的数据文件进行分块，并对每一数据块的数据项进行初步识别；

基于识别算法对数据块中每一数据项所对应的存储区块进行定位，并将每一数据项与对应存储区块中的目标数据项进行逐项识别匹配，当匹配成功时，将该数据项收录至对应的数据子集中；

基于简码排序规则对每一数据子集中的数据项进行排序，并基于聚合算法将所有数据子集进行聚合，形成所述数据文件的目标数据项识别结果。

在一种可能的设计中，基于简码索引规则建立所述目标数据项集合的多个存储区块，包括：

按照0-9的数字简码索引规则和/或A-Z的字母简码索引规则建立与简码索引数量对应的多个存储区块；

根据目标数据项集合中每一目标数据项的首字符所对应的简码索引，将每一目标数据项存储至对应的存储区块中，其中，所述首字符包括首数字和首字母。

在一种可能的设计中，将待处理的数据文件进行分块，包括：

根据计算机设备的CPU核数m，将待处理的数据文件分为m个数据块。

在一种可能的设计中，对每一数据块的数据项进行初步识别，包括：

对每一数据块中的标识符进行识别，并基于标识符将每一数据块分割为多个数据项。

在一种可能的设计中，所述简码排序规则包括0-9的数字排序规则和/或A-Z的字母排序规则，其中，0-9的数字排序规则表示当数据项的首字符是数字时，按照0-9的顺序进行排序，当两数据项的首数字相同，则按照第二个数字排序，依次递归；A-Z的字母排序规则表示当数据项的首字符是字母时，按照A-Z的顺序进行排序，当两数据项的首字母相同，则按照第二个字母排序，依次递归。

在一种可能的设计中，在对每一数据块的数据项进行初步识别之后，所述方法还包括：

基于简码排序规则对每一数据块中的数据项进行排序，得到对应的数据项序列。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于互联时刻（北京）信息科技有限公司，未经互联时刻（北京）信息科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202211320722.6/2.html，转载请声明来源钻瓜专利网。

上一篇：一种复合钻铣攻车床
下一篇：一种基于充放电水平与市场信号的储能定价策略

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F3-00 用于将所要处理的数据转变成为计算机能够处理的形式的输入装置；用于将数据从处理机传送到输出设备的输出装置，例如，接口装置
G06F3-01 .用于用户和计算机之间交互的输入装置或输入和输出组合装置
G06F3-05 .在规定的时间间隔上，利用模拟量取样的数字输入
G06F3-06 .来自记录载体的数字输入，或者到记录载体上去的数字输出
G06F3-09 .到打字机上去的数字输出
G06F3-12 .到打印装置上去的数字输出

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于识别和聚合算法的数据文件处理方法、装置和设备有效

专利文献下载