[发明专利]一种评估数据的可信度的方法及装置在审
申请号: | 201611229088.X | 申请日: | 2016-12-27 |
公开(公告)号: | CN108255788A | 公开(公告)日: | 2018-07-06 |
发明(设计)人: | 李欣;邓丽;王生;王伟 | 申请(专利权)人: | 方正国际软件(北京)有限公司;方正国际软件有限公司 |
主分类号: | G06F17/18 | 分类号: | G06F17/18 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 黄志华 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据源 字段 矩阵 可信度 可信度评估 矩阵相乘 冲突 可信度系数 结果矩阵 评估数据 数据可信度 冲突数据 评估结果 集合 | ||
本发明公开一种评估数据可信度的方法及装置,该方法包括:获取N个数据源的冲突数据集合,选择可信度最大值作为所述第一对象的所述第一冲突字段的可信度系数,确定N个数据源两两之间的相关性系数,并生成关于所述第一冲突字段的相关性矩阵;用所述可信度系数与所述相关性矩阵相乘,得到所述第一冲突字段的可信度评估矩阵;计算得到每个对象的每个冲突字段的可信度评估矩阵;将每个对象的每个冲突字段的可信度评估矩阵相乘得到的N行N列的结果矩阵,将所述N行N列的结果矩阵与所述N个数据源的初始可信度对应的N行1列矩阵相乘,得到所述N个数据源的N行1列的评估结果矩阵,用以提高数据源中数据可信度的准确性。
技术领域
本发明涉及数据处理领域,尤其涉及一种评估数据的可信度的方法及装置。
背景技术
随着信息技术的发展,“大数据”一词越来越多地被提及,大数据被用以描述和定义信息爆炸时代产生的海量数据,如企业在日常运营中生成、累积的用户网络行为数据。
大数据的特点不仅仅是数据规模的大,而且还有一个非常重要的特点是数据的多样性,多样性是指描述同一个对象的数据可能来自不同的数据源,且具有不同的数据表现形式。例如,同一个客户的信息可能存储在同一个公司的多个不同的数据库当中,一个病人的病历记录可能分布在多个不同的医院里,同一个自然现象(台风或者暴雨)在不同的实验室、气象台可能会观测到不同的风力指数等。数据在输入,变换等操作过程中由于人为或者设备的误差可能导致描述同一个对象的数据在不同的数据源中存在误差,缺失甚至是相互冲突的现象。在工业生产或者基于数据分析的决策支持系统中,这种数据的冲突而导致的信息不可靠会引起极其严重的后果,给企业造成重大的损失。所以,从多源异构数据源当中辨识出真实可靠的数据,化解多源数据之间的冲突现象具有非常重要现实意义和应用价值。
数据库研究领域对多源数据的冲突化解问题进行了深入的研究,在数据集成的应用中,提出了一系列的方法来化解多源异构数据的冲突。对于类别型的数据,常用的冲突化解方法是根据投票原则,将多个数据源当中出现次数最多的值作为数据的真实值;对于连续型的数据,常用的冲突化解方法是简单的取多个数据源的数据的中值或者均值作为数据的真实值。
然而,投票、取中值或均值的方法对于过去的应用来讲,一般来说能够满足要求,但是随着科技的发展和应用的变化,这种简单的方法对所有的数据源均等对待的手段就明显不足。对每个数据源都取相等的权重,极有可能得到与真实值偏差严重的不可靠数据。在复杂的现实世界当中,投票、取中值或均值的方法不能判断出不可靠的数据源。例如当出故障的传感器不断发射错误的值或者是网络病毒不断在网络上传播错误的信息时,投票、取中值或均值的方法不能判断出这种不可靠的信息来源,造成对真实值的偏差估计。
综上,现有的数据评估方法存在准确度地,不利于后续数据整合的缺点。
发明内容
本发明实施例提供一种评估数据的可信度的方法及装置,用以提高数据源中数据可信度的准确性。
本发明方法包括一种评估数据可信度的方法,该方法包括:
获取N个数据源的冲突数据集合,其中,各个数据源包含相同对象的相同字段,且所述冲突数据集合中每至少两个冲突数据归属于同一对象的同一字段;
针对所述冲突数据集合中的第一对象的第一冲突字段的每个冲突数据,确定每个冲突数据的可信度,并从各个冲突数据的可信度中,选择可信度最大值作为所述第一对象的所述第一冲突字段的可信度系数,其中,所述第一对象为任意一个对象,所述第一冲突字段为所述冲突数据集合对应的M个冲突字段中的任意一个;
针对N个数据源所对应的第一对象的第一冲突字段,根据各个数据源中所述第一冲突字段对应的数据的相似性,确定N个数据源两两之间的相关性系数,并生成关于所述第一冲突字段的相关性矩阵;
用所述可信度系数与所述相关性矩阵相乘,得到所述第一冲突字段的可信度评估矩阵;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于方正国际软件(北京)有限公司;方正国际软件有限公司,未经方正国际软件(北京)有限公司;方正国际软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611229088.X/2.html,转载请声明来源钻瓜专利网。