[发明专利]一种基于分层模型的大数据可信性度量方法有效

专利信息
申请号: 201510632818.X 申请日: 2015-09-30
公开(公告)号: CN105843829B 公开(公告)日: 2019-04-26
发明(设计)人: 程晓荣;李天琦;赵惠兰 申请(专利权)人: 华北电力大学(保定)
主分类号: G06F16/2458 分类号: G06F16/2458
代理公司: 暂无信息 代理人: 暂无信息
地址: 071003 河*** 国省代码: 河北;13
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明属于面向大数据的数据信任评估的领域,具体涉及一种基于分层模型的大数据可信性度量方法。该发明在传统数据可信分析理论的基础上,通过增加时间因子与惩罚因子等权重参数,计算数据源之间的可信度、数据源的可信度、数据的可信度,动态地构建了层次化的大数据可信分析网络。本发明与现有模型相比,克服了传统数据可信分析方法对于大数据可信计算的不适用性,从更加综合的层面上分析了影响大数据可信度计算的因素,同时,在数据源提供的数据量越多的情况下,越能对所提供数据的可信性度量进行准确分析,较好地满足了大数据的可信需求。
搜索关键词: 一种 基于 分层 模型 数据 可信性 度量 方法
【主权项】:
1.基于分层模型的大数据可信性度量方法,其特征在于:包括以下步骤:步骤1:对于采集到的数据利用Hadoop技术进行预处理,提取关键属性;步骤2:计算数据源之间的本地可信度,动态构建由数据源构成的可信网络,当t=0时,可信度的初始值是随机数或者0;当任意t时刻时,若数据源之间没有上下文交互,就对其t‑1时刻的可信度值进行时间惩罚,以作为t时刻的本地可信度值,若存在上下文交互时,t时刻的可信度就由数据源之间直接进行上下文交互的可信度与两个数据源之间的相似度组合而成,但当计算的t时刻的可信度值小于t‑1时刻的可信度值,那么就需要对其加以系数惩罚,当计算本地可信度超过预先规定的阀值时,它们之间就会建立了一条有向链路,这样就能逐渐地构建可信网络,计算本地可信度的方法如公式1所示:说明:a)初始值为一个随机数或0,表示数据源A对数据源B有一些信任或没有信任;b)μ(t)表示在t时刻时,时间衰减系数,当数据源A对数据源B在t时刻与t‑1时刻时,若本地可信度值相同,则就对它加以时间衰减惩罚,其中,0≤μ(t)<1;其中Δt是指两次计算时间的差值,t0是指当前计算的起始时间,t为当前时刻;c)ΔContext(A,B,t)表示在t时刻时,数据源A和数据源B之间是否有新增的上下文直接交互;ΔContext(A,B,t)=Context(A,B,t)‑Context(A,B,t‑1);d)DirTrust(A,B,Context(A,B,t),t)表示在t时刻时,数据源A对数据源B在上下文交互条件Context(A,B,t)下的可信值;e)Accept(A,B,t)表示在t时刻时,数据源A对数据源B的相似程度的认可度;其中,Data(A)为数据源A提供的所有数据集合,dataa表示数据集合中的任何一条数据,Sim(dataa,datab)是指数据dataa与datab的相似程度,Data(A)∩Data(B)是指数据源A所提供的数据集合与数据源B所提供的数据集合有相同的主题的数据的个数;f)λ(t)表示在t时刻时,本模型对本地可信度的惩罚系数;其中,ΔLocalTrustA(B,t)表示在t时刻时,数据源A对目的数据源B本地可信度是否发生了变化,ΔLocalTrustA(B,t)=LocalTrustA(B,t)‑LocalTrustA(B,t‑1);步骤3:计算数据源之间的全局可信度,这里的可信度值是目标数据源的可信度,所以全局可信度受数据源可信度的限制,计算方法如公式2所示:GlobalTrustA(B,t)=Trust(B,t)      公式(2)步骤4:计算数据源之间的可信度,它是由数据源之间的本地可信度与全局可信度组合而成,数据源之间的可信度的计算公式,即数据源A对数据源B的可信度计算方法,如公式3所示:TrustA(B,t)=α·LocalTrustA(B,t)+β·GlobalTrustA(B,t)    公式(3)其中,α+β=1;步骤5:计算数据源的可信度,当t=0时,可信度的初始值一般是随机数或者0;当t时刻时,若数据源的信任值在t与t‑1时刻的差值是等于0,就对其t‑1时刻的可信度值进行时间惩罚,以作为t时刻的数据源可信度值,若数据源的信任值在t与t‑1时刻的差值是大于或小于0,数据源的可信度为数据源提供的所有历史数据的可信度期望值与整个可信网络中各层对数据源的推荐可信度的综合可信度,但当计算的t时刻的可信度值小于t‑1时刻的可信度值,那么就需要对其加以系数惩罚,数据源的可信度计算公式,即对数据源A的可信度的计算方法,如公式4所示:说明:a)初始值为一个随机数或0,表示数据源A有一些信任或没有信任;b)u(t)表示在t时刻时,时间衰减系数,当对于数据源A在t时刻与t‑1时刻时,若可信度相同,则就对它加以时间衰减惩罚,取值范围0≤μ(t)<1;c)λ(t)表示在t时刻时,本模型对数据源的可信度的惩罚系数;d)ΔTrust(A,t)表示在t时刻时,对于数据源A的信任值在t与t‑1时刻的差值;ΔTrust(A,t)=Trust(A,t)‑Trust(A,t‑1);e)Trust(dataa,t)表示在t时刻时,对数据dataa的信任度;f)Sum(Data(A))表示求数据源A提供数据的总数量;g)γn表示在可信网络中,以所求信任值的数据源为圆心,每一层对目标数据源信任权重,它是一个1*n维向量,第一个元素的值为第一层对圆心数据源的信任权重,以此类推,每个向量元素为所对应层次的信任权重,且权重值是个常数,根据专家设定,由内向外逐层递减,取值范围[0,1]之间;h)Recommendn(A,t)表示在t时刻时,每层数据源对目标数据源A的推荐可信度,其中它是一个n×1维向量,第一个元素的值为第一层所有数据源对目标数据源A的推荐可信度期望值,以此类推,每个向量元素为所对应层次的推荐可信度期望值,一般层数是根据精确度和需求设置的,层数越大,计算量越大,相应的得到的数据就越准确;i.第i层的某个数据源对目标数据源A的推荐可信度计算公式,如公式5所示:其中,Xi表示第i层数据源X,Neighbormax(Xi‑>A)表示朝向A的方向上,第i‑1层上与Xi相邻的可信度最大的数据源;ii.第i层的所有数据源对目标数据源A的推荐可信度期望值为其中,Circlei(A)表示在可信网络中,以A为圆心的第i层上的所有数据源,Sum(Circlei(A))表示第i层上的所有数据源的数量;步骤6:计算直接可信度,数据源对所提供的数据的直接可信度值就是数据源在整个可信网络中自身的可信度值,如公式6所示:DirTrust(A,data,t)=Trust(A,t)        公式(6)步骤7:计算间接可信度,计算与数据源相邻接有限的n个可信度高的数据源组合成这条数据真实的推荐可信度,即数据源A对数据data的间接可信度计算,如公式7所示:其中,Neighborn(A)与A相邻的可信度高的n个数据源;步骤8:计算数据源对数据的可信度,一个数据源对所提供的某条数据真实的可信度计算公式,即数据源A对数据data的可信度计算,如公式8所示:Trust(A,data,t)=α·DirTrust(A,data,t)+β·InDirTrust(A,data,t)    公式(8)其中,α+β=1;步骤9:计算数据的可信度,计算方法是求所有的直接提供这条数据的数据源或有直接关系的数据源在历史记录中都提供不可靠数据的对立事件的概率,即对数据data的可信度计算,如公式9所示:步骤1‑9是在不断反复迭代计算的,如果需要查看某一时刻数据的可信度状态,可以采用数据快照的方式查看。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华北电力大学(保定),未经华北电力大学(保定)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201510632818.X/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top