[发明专利]一种面向大数据的可信度量方法有效
申请号: | 201510883959.9 | 申请日: | 2015-12-04 |
公开(公告)号: | CN105760649B | 公开(公告)日: | 2018-09-04 |
发明(设计)人: | 李刚;程晓荣;钟亮;李昆;路向宇;李天琦;张昊天 | 申请(专利权)人: | 唐山达意科技股份有限公司 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 石家庄冀科专利商标事务所有限公司 13108 | 代理人: | 李羡民;高锡明 |
地址: | 063000 河北省*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 数据 可信 度量 方法 | ||
一种面向大数据的可信度量方法,用于对大数据的可信性进行准确分析,其技术方案是,通过计算数据源之间的可信度、数据源的可信度、数据的可信度,动态地构建含有时间因子和惩罚因子权重参数的层次化的大数据可信性分析网络,最后利用所构建的可信性分析网络计算出数据的可信度。本发明在传统数据可信分析理论的基础上,通过增加时间因子与惩罚因子等权重参数,构建了层次化的动态大数据可信分析网络模型,将大数据的可信性分析问题归结为数据源、数据源之间及数据传播网络路径的组合问题,仿真实验证明,数据源提供的数据量越多,该模型越能对数据的可信性进行准确分析,很好地满足了大数据的可信需求。
技术领域
本发明涉及一种基于分层模型的大数据可信性度量方法,属于数据处理技术领域。
背景技术
近年来,随着物联网、云计算等技术的迅猛发展,“人-机-物”三元世界高度融合,并且造成数据规模的爆炸式增长和数据模式的高度复杂化,促使当前的信息社会步入大数据(Big Data)时代。大数据的产生,为信息科学及控制与决策领域提供了丰富的数据源基础,但数据的真实性在信息融合、智能决策等方面具有重要的作用。
目前,针对数据的可信度量与信任管理,已有一些研究方法和经典处理,主要分为两大类,一类是客观信任分析,这类信任分析是基于证据的,严格的定义信任关系,能够精确地描述、验证。另一类是主观信任分析,这类信任分析是基于信念的,具有模糊性、不确定性,无法精确地描述、验证。具体包括基于证据和概率统计理论、基于模糊集合理论、基于信息熵的理论及基于多属性决策理论等算法。虽然这些算法对于普通数据的可信度量做出了一定的贡献,但是其可信计算模型一般只考虑一部分决策属性,并不全面。在计算综合信任度时只考虑直接信任与间接信任的简单的加权平均,而忽略了环境上下文影响,导致模型不能很好地刻画信任关系的复杂性和不确定性。在基于概率统计建模过程中,由于建模前做了一部分假设,带有较大的主观性,致使预测结果的准确性和可信决策的科学性受到影响。一部分模型虽然考虑了实体之间的动态交互性和随机性,但并没有考虑时效性及恶意推荐所带来的影响,而且缺少灵活性,一旦权值确定,系统很难动态地去调整它,致使预测模型缺少自适应性。而在大数据时代,数据具有典型的“4V”特征(即海量的数据规模(Volume)、快速的数据流转(Velocity)、多样的数据类型(Variety)、巨大的数据价值(Value))和典型“HDC”属性(即数据的异构性(Heterogeneous)、动态的数据体系(Dynamic)、数据的复杂性(Complexity)),这就决定了大数据具有多源分布性、异构性、时空关联性、社会性及高噪声等特点。因此传统的数据可信分析方法无法满足大数据的可信度量需求,有必要研究新形势下大数据的可信度量与评估方法,以有效降低风险,提高数据的可信性,满足人们对大数据可信性的迫切需求。
发明内容
本发明的目的在于针对现有技术之弊端,提供一种面向大数据的可信度量方法,以便对数据的可信性进行准确分析,满足人们对大数据可信性的迫切需求。
本发明所述问题是以下述技术方案解决的:
一种面向大数据的可信度量方法,所述方法通过计算数据源之间的可信度、数据源的可信度、数据的可信度,动态地构建含有时间因子和惩罚因子权重参数的层次化的大数据可信性分析网络,最后利用所构建的可信性分析网络计算出数据的可信度,所述方法包括以下步骤:
a.利用Hadoop技术对采集到的数据进行预处理,提取关键属性;
b.计算数据源之间的本地可信度,动态构建由数据源构成的可信网络:
本地可信度的计算公式为:
ΔContext(A,B,t)=Context(A,B,t)-Context(A,B,t-1),
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于唐山达意科技股份有限公司,未经唐山达意科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510883959.9/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置