[发明专利]基于识别和聚合算法的数据文件处理方法、装置和设备有效

申请号：	202211320722.6	申请日：	2022-10-26
公开（公告）号：	CN115454356B	公开（公告）日：	2023-01-24
发明（设计）人：	滕济可;刘亚猛	申请（专利权）人：	互联时刻（北京）信息科技有限公司
主分类号：	G06F3/06	分类号：	G06F3/06
代理公司：	成都顶峰专利事务所(普通合伙) 51224	代理人：	冉丽
地址：	100000 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于识别聚合算法数据文件处理方法装置设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于识别和聚合算法的数据文件处理方法，其特征在于，包括：

获取目标数据项集合，并基于简码索引规则建立所述目标数据项集合的多个存储区块，其中，每一简码索引对应一个存储区块；

将待处理的数据文件进行分块，并对每一数据块的数据项进行初步识别；

基于识别算法对数据块中每一数据项所对应的存储区块进行定位，并将每一数据项与对应存储区块中的目标数据项进行逐项识别匹配，当匹配成功时，将该数据项收录至对应的数据子集中；

基于简码排序规则对每一数据子集中的数据项进行排序，并基于聚合算法将所有数据子集进行聚合，形成所述数据文件的目标数据项识别结果；

所述简码排序规则包括0-9的数字排序规则和/或A-Z的字母排序规则，其中，0-9的数字排序规则表示当数据项的首字符是数字时，按照0-9的顺序进行排序，当两数据项的首数字相同，则按照第二个数字排序，依次递归；A-Z的字母排序规则表示当数据项的首字符是字母时，按照A-Z的顺序进行排序，当两数据项的首字母相同，则按照第二个字母排序，依次递归；

在对每一数据块的数据项进行初步识别之后，所述方法还包括：

基于简码排序规则对每一数据块中的数据项进行排序，得到对应的数据项序列；

基于识别算法对数据块中每一数据项所对应的存储区块进行定位，并将每一数据项与对应存储区块中的目标数据项进行逐项识别匹配，包括：

基于k(n)识别算法将每一数据项序列中的数据项逐项与A编码或0编码做取模计算，并根据余数值定位每一数据项所对应的存储区块，其中，n表示识别算法的输入参数；

基于k(n)识别算法将每一数据项与对应存储区块中的目标数据项的字符串或数字进行匹配，若一致，则匹配成功。

2.根据权利要求1所述的基于识别和聚合算法的数据文件处理方法，其特征在于，基于简码索引规则建立所述目标数据项集合的多个存储区块，包括：

按照0-9的数字简码索引规则和/或A-Z的字母简码索引规则建立与简码索引数量对应的多个存储区块；

根据目标数据项集合中每一目标数据项的首字符所对应的简码索引，将每一目标数据项存储至对应的存储区块中，其中，所述首字符包括首数字和首字母。

3.根据权利要求1所述的基于识别和聚合算法的数据文件处理方法，其特征在于，将待处理的数据文件进行分块，包括：

根据计算机设备的CPU核数m，将待处理的数据文件分为m个数据块。

4.根据权利要求1所述的基于识别和聚合算法的数据文件处理方法，其特征在于，对每一数据块的数据项进行初步识别，包括：

对每一数据块中的标识符进行识别，并基于标识符将每一数据块分割为多个数据项。