[发明专利]追溯数据的抓取、去重及修复方法有效
申请号: | 201911069544.2 | 申请日: | 2019-11-04 |
公开(公告)号: | CN110782263B | 公开(公告)日: | 2022-06-24 |
发明(设计)人: | 陈娟;杨杰克;朱嘉心;李志彤;张百茵;闫颖;贺一丁;龚伟 | 申请(专利权)人: | 中国电子信息产业发展研究院 |
主分类号: | G06Q30/00 | 分类号: | G06Q30/00;G06F40/126;G06F16/25;G06F16/24 |
代理公司: | 北京兰亭信通知识产权代理有限公司 11667 | 代理人: | 赵永刚 |
地址: | 100846 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 追溯 数据 抓取 修复 方法 | ||
本发明提供一种追溯数据抓取、去重及修复方法,包括:抓取产品的产品追溯码和若干维度的产品数据;依据抓取的若干维度的产品数据计算产品特征值和缺失标志值;产品追溯码、产品特征值和缺失标志值组成产品识别码;当产品识别码的产品追溯码与数据库中已有的产品识别码的产品追溯码相同时,比产品特征值与数据库中已有的产品特征值进行比较,当产品特征值与数据库中已有的产品特征值不同时,查看数据库中已有的缺失标志值,当缺失标志值显示为缺失时,将抓取的若干维度的产品数据补充进入数据库并重新计算特征值。本方法能够实现数据的自我修复,能够对产品的追溯数据不断完善。
技术领域
本发明涉及数据追溯技术领域,尤其涉及一种追溯数据的抓取、去重及修复方法。
背景技术
目前市场上的追溯数据抓取技术,往往是针对某些特定产品生产厂商的追溯数据格式、内容而定制化开发的数据抓取模块。或者通过购买数据转换类软件,并通过定制化配置的方式来适配数据源。这种方式缺乏通用性,无法适配整个行业不同生产厂商的追溯数据源。然后通过在数据库中判断某些特定字段是否一致,进而识别出重复数据。此种方法效率较低,且单独比对某些字段来识别重复数据的方法相对来说较为片面,无法通过分析全要素数据来综合识别综合数据。而对于数据的更新往往是通过分析数据更新时间,用最近更新的数据来覆盖旧的数据。缺乏分析数据完整性的功能。
发明内容
本发明提供的追溯数据的抓取、去重及修复方法,能够进行数据的自我修复。
本发明提供一种追溯数据抓取、去重及修复方法,包括:
抓取产品的产品追溯码和若干维度的产品数据;依据抓取的所述若干维度的产品数据计算产品特征值;依据所述产品数据的缺失情况计算缺失标志值;所述产品追溯码、产品特征值和所述缺失标志值组成产品识别码;
将所述产品识别码与数据库中已有的产品识别码进行比较;当所述产品识别码的产品追溯码与所述数据库中已有的产品识别码的产品追溯码相同时,比较所述产品识别码的产品特征值与所述数据库中已有的产品识别码的产品特征值进行比较,当所述产品识别码的产品特征值与数据库中已有的产品识别码的产品特征值不同时,查看数据库中已有的产品识别码的缺失标志值,当所述缺失标志值显示为缺失时,将抓取的所述若干维度的产品数据补充进入数据库并重新计算特征值。
可选地,计算所述产品特征值包括如下步骤:
采用Hash算法计算每个产品数据的特征数据,
将所述特征数据组成矩阵,计算所述矩阵的本征值,所述矩阵的本征值即为所述特征值。
可选地,当所述产品识别码的产品追溯码与所述数据库中已有的产品识别码的产品追溯码不同时,将抓取的所述若干维度的产品数据存储进入数据库。
可选地,当所述产品识别码的产品特征值与数据库中已有的产品识别码的产品特征值相同时,忽略抓取的所述若干维度的产品数据。
可选地,当所述缺失标志值显示为不缺失时,发出警告并记录日志。
可选地,将抓取的所述若干维度的产品数据补充进入数据库并重新计算特征值包括如下步骤:
查看数据库中已有的若干维度的产品数据缺失的数据项,将抓取的所述若干维度的产品数据对应的数据项补充进入所述缺失的数据项;
依据补充完毕的若干维度的产品数据,重新计算数据库中已有的产品识别码的产品特征值和缺失标志值。
可选地,将所述产品识别码与数据库中已有的产品识别码进行比较时,将所述产品识别码分为若干组,并将每组所述产品识别码分配至至少一个服务器进行运算。
可选地,所述若干维度的产品数据包括品类数据和单品数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子信息产业发展研究院,未经中国电子信息产业发展研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911069544.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于动态验证码的商品防伪方法及防伪系统
- 下一篇:旅游电商平台
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置