[发明专利]一种数据处理方法、装置、设备及存储介质在审
申请号: | 201911327646.X | 申请日: | 2019-12-20 |
公开(公告)号: | CN111046087A | 公开(公告)日: | 2020-04-21 |
发明(设计)人: | 毛勇岗;万月亮;程强;冯宇波 | 申请(专利权)人: | 北京锐安科技有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/28;G06F16/9535 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100044 北京市海淀区西小口*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 设备 存储 介质 | ||
本发明实施例公开了一种数据处理方法、装置、设备及存储介质。该方法包括:获取黑名单中的数据;从要素库中读取追溯数据;其中,追溯数据包括多个数据字段,以及各个数据字段对应的数据源、数据字段编码、出现次数和末次出现的时间信息;判断黑名单中的数据是否包含追溯数据;若是,为追溯数据确定第一可信度分值;若否,获取追溯数据的各个数据字段,以及对应的数据源、数据字段编码、出现次数以及末次出现的时间信息;确定各个数据字段对应的数据源、出现次数以及末次出现的时间信息的权重和分数;根据权重和分数,为不在黑名单中的追溯数据确定第二可信度分值。该方法可以为数据确定可信度分值,方便用户依据数据的可信度分值做出正确的决策。
技术领域
本发明实施例涉及大数据处理技术领域,尤其涉及一种数据处理方法、装置、设备及存储介质。
背景技术
随着科技的发展,尤其是人工智能与大数据技术的发展,我们进入信息化时代。通过大数据技术收集、处理并分析海量数据,探索数据中存在的潜在规律,并利用该规律进行有效的预测与研判,可以达到智能化的要求。
然而,随着计算机网络技术的普及,网络数据总量呈爆发式增长,并具有典型的特征,如海量的数据规模、快速的数据流转、多样的数据类型、巨大的数据价值,同时,数据还具有异构性、动态性和复杂性。这些特征使数据可能存在记录不一致、不精确、不完整或者过时等问题,对于描述同一实体的数据也可能出现冲突的情况。换言之,数据可能是不可信的。实际中,用户通常会对某一事件的数据进行收集、整理及分析,进而了解事件的发展情况,并依据数据的分析结果对事件的发展进行预判。而数据的不可信性会使用户对事件的了解出现误导,出现有害的结果,甚至对经济、社会造成严重的损失。
发明内容
本发明实施例提供了一种数据处理方法、装置、设备及存储介质,可以建立良好、可信的数据环境,便于用户依据可信的数据做出正确决策。
第一方面,本发明实施例提供了一种数据处理方法,该方法包括:
获取黑名单中的数据;
从要素库中读取追溯数据;其中,所述追溯数据包括多个数据字段,以及各个所述数据字段对应的数据源、数据字段编码、出现次数和末次出现的时间信息;
判断所述黑名单中的数据是否包含所述追溯数据;
若是,为所述追溯数据确定第一可信度分值;
若否,获取所述追溯数据的各个所述数据字段,以及对应的所述数据源、所述数据字段编码、所述出现次数以及所述末次出现的时间信息;
确定各个所述数据字段对应的所述数据源、所述出现次数以及所述末次出现的时间信息的权重和分数;
根据所述权重和所述分数,为不在所述黑名单中的追溯数据确定第二可信度分值。
第二方面,本发明实施例还提供了一种数据处理装置,该装置包括:
数据获取模块,用于获取黑名单中的数据;
追溯数据读取模块,用于从要素库中读取追溯数据;其中,所述追溯数据包括多个数据字段,以及各个所述数据字段对应的数据源、数据字段编码、出现次数和末次出现的时间信息;
判断模块,用于判断黑名单中的数据是否包含所述追溯数据;
第一可信度分值确定模块,用于若是,为所述追溯数据确定第一可信度分值;
信息获取模块,用于若否,获取所述追溯数据的各个所述数据字段,以及对应的所述数据源、所述数据字段编码、所述出现次数以及所述末次出现的时间信息;
确定权重和分数模块,用于确定各个所述数据字段对应的所述数据源、所述出现次数以及所述末次出现的时间信息的权重和分数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京锐安科技有限公司,未经北京锐安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911327646.X/2.html,转载请声明来源钻瓜专利网。