[发明专利]一种基于数据分布的提单号分析方法在审

专利信息
申请号: 202111281336.6 申请日: 2021-11-01
公开(公告)号: CN114328645A 公开(公告)日: 2022-04-12
发明(设计)人: 高时超 申请(专利权)人: 钧航(武汉)物流信息技术有限公司
主分类号: G06F16/2458 分类号: G06F16/2458
代理公司: 暂无信息 代理人: 暂无信息
地址: 430073 湖北省武汉市武汉东湖新技术开发区茅店山中路5号武钢高新技术产业园7*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 数据 分布 提单 分析 方法
【权利要求书】:

1.一种基于数据分布的提单号分析方法,其特征在于:具体的方法如下:

S1:整体空间的探索,基于桶段的有效空间的探索;

S11:首先预估序列号空间:根据当前序列数据整理出通用格式,从而计算出序列空间的大小;同时分析有效数据的生命周期,制定获取策略,识别流水位校验位;

S12:在获取了空间的大小后,我们将空间进行桶切割,每个桶的大小固定,大约从1万-100万个连续序列号;

S13:对每个桶进行一定比例抽样,确定是否为有效桶;

S14:通过摸桶结果,判断桶的有效性,对于没有任何有效序列的桶有如下两种可能,从未被使用的序列空间和已经使用过但是序列号生命周期已经结束的序列空间;

S15:对于有效桶,为了进一步减少爬取量,对桶内进行分段,每段进行固定数量的抽样,确定桶内有效序列的密度,以及序列的发生时间是否过早,从而筛选出有新鲜数据的桶和段;

S16:对有效桶段进行数据预先获取,使用分桶分段的方式,将有效爬取率提升至20%以上;

S2:校验位的规则探索;

S21:部分场景在序列号的末尾存在1-2位的校验位,通过序列的逐位重复性检查,即发现不存在其他位相同,该位不同的序列号,结合序列每位的出现概率,我们能够确认序列号的校验位和流水位;

S22:校验规则的探索通过流水位的变化分析对校验位的影响,逐步解析校验位的生成规则,一般的序列号基本都是各位的线性组合,同时对字母进行数字映射而成,这种分析方式能够有效解析校验位,可以降低爬取的数量级,减少对场景访问的压力;

S3:基于历史序列数据对序列格式的提取与基于历史序列数据对场景的预判;

S31:序列号一般存在前缀、后缀和分号多种场景,同时序列也有的不同表述方式,在用户查询时采用其中任何一种,能够识别出常用的序列格式,同时能够对序列号进行标准化处理;

S32:序列格式的分析分成两个模块,分别是序列字数组合格式和头部特征,通过对这两项特征的出现频率统计,可以有效完成对序列格式的提取与更新;

S33:通过对序列格式的规则整理,有效地对场景归属进行计分;从而可以支持依次访问各场景,满足用户的查询需求。

2.根据权利要求1所述的一种基于数据分布的提单号分析方法,其特征在于:所述S13中桶的头部会进行更高强度的摸桶,桶的头部即序列号相对较小的序列。

3.根据权利要求1所述的一种基于数据分布的提单号分析方法,其特征在于:所述S32中字数组合是指字母和数字组成序列的基本规则,头部特征是指序列前部的字母和数字组合。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于钧航(武汉)物流信息技术有限公司,未经钧航(武汉)物流信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111281336.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top