[发明专利]一种基于数据分布的提单号分析方法在审
申请号: | 202111281336.6 | 申请日: | 2021-11-01 |
公开(公告)号: | CN114328645A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 高时超 | 申请(专利权)人: | 钧航(武汉)物流信息技术有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 430073 湖北省武汉市武汉东湖新技术开发区茅店山中路5号武钢高新技术产业园7*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 分布 提单 分析 方法 | ||
本发明公开了一种基于数据分布的提单号分析方法,包括整体空间的探索,基于桶段的有效空间的探索、校验位的规则探索和基于历史序列数据对序列格式的提取与基于历史序列数据对场景的预判;本方法通过基于数据分布的数据分析方法,可以对序列号内数据进行精准预先提取,保证响应速度,并减少业务繁忙时间内的并发量,减少对相关站点的访问压力;在用户查询的场景下,对于常见的异常格式,罕见格式进行模糊匹配,根据历史统计数据可以利用序列号获取相关的规律。
技术领域
本发明涉及序列号分析领域,具体为一种基于数据分布的提单号分析方法。
背景技术
在海运相关可获取的公开数据中,包括船信息,箱信息,海关信息,序列信息都是基于随机序列号生成的,而获取有效序列号才能得到相应的海运数据。这些有效序列号往往隐藏在巨大的号段空间内,有效率一般在1000-1000000分之一,而如何及时获取则几乎是一个不可能的任务;为此提供了一种基于数据分布的提单号分析方法。
发明内容
本发明的目的是针对现有技术的缺陷,提供一种基于数据分布的提单号分析方法,以解决上述背景技术提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于数据分布的提单号分析方法,具体的方法如下:
S1:整体空间的探索,基于桶段的有效空间的探索;
S11:首先预估序列号空间:根据当前序列数据整理出通用格式,从而计算出序列空间的大小;同时分析有效数据的生命周期,制定获取策略,识别流水位校验位;
S12:在获取了空间的大小后,我们将空间进行桶切割,每个桶的大小固定,大约从1万-100万个连续序列号;
S13:对每个桶进行一定比例抽样,确定是否为有效桶;
S14:通过摸桶结果,判断桶的有效性,对于没有任何有效序列的桶有如下两种可能,从未被使用的序列空间和已经使用过但是序列号生命周期已经结束的序列空间;
S15:对于有效桶,为了进一步减少爬取量,对桶内进行分段,每段进行固定数量的抽样,确定桶内有效序列的密度,以及序列的发生时间是否过早,从而筛选出有新鲜数据的桶和段;
S16:对有效桶段进行数据预先获取,使用分桶分段的方式,将有效爬取率提升至20%以上;
S2:校验位的规则探索;
S21:部分场景在序列号的末尾存在1-2位的校验位,通过序列的逐位重复性检查,即发现不存在其他位相同,该位不同的序列号,结合序列每位的出现概率,我们能够确认序列号的校验位和流水位;
S22:校验规则的探索通过流水位的变化分析对校验位的影响,逐步解析校验位的生成规则,一般的序列号基本都是各位的线性组合,同时对字母进行数字映射而成,这种分析方式能够有效解析校验位,可以降低爬取的数量级,减少对场景访问的压力;
S3:基于历史序列数据对序列格式的提取与基于历史序列数据对场景的预判;
S31:序列号一般存在前缀、后缀和分号多种场景,同时序列也有的不同表述方式,在用户查询时采用其中任何一种,能够识别出常用的序列格式,同时能够对序列号进行标准化处理;
S32:序列格式的分析分成两个模块,分别是序列字数组合格式和头部特征,通过对这两项特征的出现频率统计,可以有效完成对序列格式的提取与更新;
S33:通过对序列格式的规则整理,有效地对场景归属进行计分;从而可以支持依次访问各场景,满足用户的查询需求。
作为本发明的一种优选技术方案,所述S13中桶的头部会进行更高强度的摸桶,桶的头部即序列号相对较小的序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于钧航(武汉)物流信息技术有限公司,未经钧航(武汉)物流信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111281336.6/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置