[发明专利]追溯数据的抓取、去重及修复方法有效

专利信息
申请号: 201911069544.2 申请日: 2019-11-04
公开(公告)号: CN110782263B 公开(公告)日: 2022-06-24
发明(设计)人: 陈娟;杨杰克;朱嘉心;李志彤;张百茵;闫颖;贺一丁;龚伟 申请(专利权)人: 中国电子信息产业发展研究院
主分类号: G06Q30/00 分类号: G06Q30/00;G06F40/126;G06F16/25;G06F16/24
代理公司: 北京兰亭信通知识产权代理有限公司 11667 代理人: 赵永刚
地址: 100846 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 追溯 数据 抓取 修复 方法
【说明书】:

发明提供一种追溯数据抓取、去重及修复方法,包括:抓取产品的产品追溯码和若干维度的产品数据;依据抓取的若干维度的产品数据计算产品特征值和缺失标志值;产品追溯码、产品特征值和缺失标志值组成产品识别码;当产品识别码的产品追溯码与数据库中已有的产品识别码的产品追溯码相同时,比产品特征值与数据库中已有的产品特征值进行比较,当产品特征值与数据库中已有的产品特征值不同时,查看数据库中已有的缺失标志值,当缺失标志值显示为缺失时,将抓取的若干维度的产品数据补充进入数据库并重新计算特征值。本方法能够实现数据的自我修复,能够对产品的追溯数据不断完善。

技术领域

本发明涉及数据追溯技术领域,尤其涉及一种追溯数据的抓取、去重及修复方法。

背景技术

目前市场上的追溯数据抓取技术,往往是针对某些特定产品生产厂商的追溯数据格式、内容而定制化开发的数据抓取模块。或者通过购买数据转换类软件,并通过定制化配置的方式来适配数据源。这种方式缺乏通用性,无法适配整个行业不同生产厂商的追溯数据源。然后通过在数据库中判断某些特定字段是否一致,进而识别出重复数据。此种方法效率较低,且单独比对某些字段来识别重复数据的方法相对来说较为片面,无法通过分析全要素数据来综合识别综合数据。而对于数据的更新往往是通过分析数据更新时间,用最近更新的数据来覆盖旧的数据。缺乏分析数据完整性的功能。

发明内容

本发明提供的追溯数据的抓取、去重及修复方法,能够进行数据的自我修复。

本发明提供一种追溯数据抓取、去重及修复方法,包括:

抓取产品的产品追溯码和若干维度的产品数据;依据抓取的所述若干维度的产品数据计算产品特征值;依据所述产品数据的缺失情况计算缺失标志值;所述产品追溯码、产品特征值和所述缺失标志值组成产品识别码;

将所述产品识别码与数据库中已有的产品识别码进行比较;当所述产品识别码的产品追溯码与所述数据库中已有的产品识别码的产品追溯码相同时,比较所述产品识别码的产品特征值与所述数据库中已有的产品识别码的产品特征值进行比较,当所述产品识别码的产品特征值与数据库中已有的产品识别码的产品特征值不同时,查看数据库中已有的产品识别码的缺失标志值,当所述缺失标志值显示为缺失时,将抓取的所述若干维度的产品数据补充进入数据库并重新计算特征值。

可选地,计算所述产品特征值包括如下步骤:

采用Hash算法计算每个产品数据的特征数据,

将所述特征数据组成矩阵,计算所述矩阵的本征值,所述矩阵的本征值即为所述特征值。

可选地,当所述产品识别码的产品追溯码与所述数据库中已有的产品识别码的产品追溯码不同时,将抓取的所述若干维度的产品数据存储进入数据库。

可选地,当所述产品识别码的产品特征值与数据库中已有的产品识别码的产品特征值相同时,忽略抓取的所述若干维度的产品数据。

可选地,当所述缺失标志值显示为不缺失时,发出警告并记录日志。

可选地,将抓取的所述若干维度的产品数据补充进入数据库并重新计算特征值包括如下步骤:

查看数据库中已有的若干维度的产品数据缺失的数据项,将抓取的所述若干维度的产品数据对应的数据项补充进入所述缺失的数据项;

依据补充完毕的若干维度的产品数据,重新计算数据库中已有的产品识别码的产品特征值和缺失标志值。

可选地,将所述产品识别码与数据库中已有的产品识别码进行比较时,将所述产品识别码分为若干组,并将每组所述产品识别码分配至至少一个服务器进行运算。

可选地,所述若干维度的产品数据包括品类数据和单品数据。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子信息产业发展研究院,未经中国电子信息产业发展研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911069544.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top