[发明专利]一种平衡共赢的数据资产定价机制在审
申请号: | 201910814765.1 | 申请日: | 2019-08-30 |
公开(公告)号: | CN110706018A | 公开(公告)日: | 2020-01-17 |
发明(设计)人: | 郭兵;沈艳;秦超霞;刘胜杰;苏红;张珍;周驰岷;逯峻雨;张登平;夏鑫林 | 申请(专利权)人: | 四川大学 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610065 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据资产 定价机制 多级权限 共享 平衡 隐私 个性化 博弈 高可用性 粒度级别 因素研究 影响数据 资产价格 供应链 交易 元组 定价 视角 利润 分析 | ||
1.一种平衡共赢的数据资产定价机制,其特征在于如下:
A数据资产价格评估Data asset price assessment
古典经济学以及马克思主义经济学认为价格是价值的外在体现;现代市场经济学认为价格是由市场调节决定的;事实上,这两种说法辩证地存在,即价值和市场调节共同在影响价格的制定;本章重点介绍价值如何影响数据资产价格,而把关于市场调节的内容放到第三部分;为了可靠的计量数据资产的价格,我们先介绍一些关于价格评估的标准设定;
1)标准设定standard setting
标准是衡量事物优劣的基准,在不同的应用场景中被赋予了不同的涵义;所有的标准设定方法,尽管其很详尽、系统化,仍不能脱离人的主观判断;从这个意义上看,标准并不能完全客观的设定,只能一定程度反应客观事实;在本文,我们讨论了价值量、隐私损失等级和权限开放等级三类标准设定;隐私损失等级越大代表隐私损失越大;权限开放等级越大则表示权限损失越大;
隐私损失容忍度指的是数据所有者能接受的最大隐私损失量;注意,隐私损失容忍度不同于隐私损失;比如,John的隐私损失容忍度为0.3;数据需求方对数据的隐私损失要求为0.2(或者任意小于等于0.3的值);那么,系统在提供数据时将纳入John的数据,并按0.2对数据进行加噪;当然,隐私损失补偿也会按照0.2来计算,因为实际的隐私损失是0.2;反之,如果数据需求方对数据的隐私损失要求为0.4(或者任意大于0.3的值);那么,系统在提供数据时将不纳入John的数据,因为John不能接受比0.3大的隐私损失并且系统必须满足John的隐私保护需求;
2)属性选择Attribute selection
影响数据资产价格的因素有许多,比如成本、质量、时效、可信度、数量等;所以几乎不可能设计出一个覆盖所有价格相关因素的定价机制;为了通用地、合理地定价数据资产,我们研究了多种典型数据资产的定价策略;这包括数字媒体(图像、音频、视频)、知识产权和软件即服务产品的定价策略;在此基础上,我们选出了成本、数据质量、数据权威度、隐私损失和权限等级五个主要属性用于评估数据资产的价格;
·成本cost
成本是指卖方生产数据资产的各种成本,由固定成本和边际成本构成;固定成本指一个组织或企业收集、整合和加工数据,然后形成第一个中间数据产品或最终数据产品的成本;边际成本指每新增一个单位的数据产品所增加的成本;由于数据资产具有数量大的特性,其固定成本相对很小;因此在估计数据资产的成本时,常常指边际成本;
·数据质量Data Quality
数据质量是保障数据分析结论有效和准确的基础;狭义的数据质量包括数据的准确性、及时性、完整性和一致性;数据的准确性指数据是否有错误;及时性指数据的最新程度;完整性指数据内容的完整程度;一致性指数据是否以相同的格式呈现;广义的数据质量还包括数据整体的有效性,例如,数据整体是否是可信的、数据的取样是否合理等;狭义的数据质量针对的是数据原生属性值的质量,而广义的数据质量更倾向于数据的信息质量;数据质量越好意味着数据可用性越高,因此数据资产价格和数据质量成正相关关系;
·数据权威度data authority
在《新现代汉语词典》中,对于权威的解释是:(1)使人信从的力量和威望;(2)是在某种范围里最有地位的人或事物;权威强调的是某个人、某种组织或某种思想体系被社会所认可、信任并自愿支持;数据权威度来源于微博用户权威度,指数据在数据市场中的影响力和社会对其信服的程度;
数据权威度由数据影响力和数据可信度两部分组成;数据影响力指数据对数据市场的作用程度及数据被传播的程度;关于数据影响力的定量评价方法有很多,如影响因子,H指数和自引率等;数据可信度指数据被公众信任和支持的程度;数据可信度与数据监管平台的可靠性、数据提供者的素质有关,比如权威机构或信用良好的用户提供的数据可信度一般较高;
数据权威度反映的是公众对于数据的评价和认可程度,对数据资产价格具有正向影响作用;
·隐私损失privacy loss
CHAO Li&Rachana Nget等人指出分析数据信息会损害数据所有者的隐私,数据买方必须为此付费并且数据所有者应该因失去数据隐私而获得补偿;在本文中,数据所有者需要设置自己的隐私损失容忍度;买方选择需要的隐私损失,并根据系统检测的实际隐私损失支付相应的补偿价格;卖方和买方通过选择隐私损失等级可以控制自己的收益和支出;
数据资产交易中可能存在隐私的套利;比如,一个精明商家想获取“John是否有糖尿病”的数据信息(标记为info 1);假设他已经知道John是第100号糖药病检查者,那么他就可以通过同时购买数据信息“医院前99名糖药病检查者的患病人数”(标记为info 2)和数据信息“前100名糖药病检查者的患病人数”(标记为info 3)来得知答案;这个例子中,info2和info 3的隐私含量极低,相应的价格也极低(价格分别为1美元和2美元);但info 1的隐私含量却极高,相应的该数据信息价格也极高(价格为100美元);这样一来,这个精明商家应该花100美元才能搞定的事情现在用3美元就完成了;套利交易会侵犯数据所有者的隐私,损害卖方潜在收益;因此,合理的隐私补偿机制一定是无套利的;
我们从推测糖尿病患者的例子中发现,正是数据中的细小差异导致了潜在的隐私泄露和提供了隐私套利的条件;差分隐私(Differential Privacy)是一种安全计算方法,不仅可以保证对手无法从部分数据信息中了解到关于整个数据的有用信息,还可以确保对手对具体数据所有者一无所知;
Definition 1:(ε-DifferentialPrivacy)A randomized algorithm M:D→Rsatisfies ε-DifferentialPrivacy(orε-DP)if for every pair of neighboringdatasets x,y∈D where x and y differs by only one record,and for any set ORange(M),
Pr(M(x)=O)≤eε×Pr (M(y)=O) (1)
ε-DP要求对于输入不同数据集x和y,得到相同输出结果O的概率差(用eε表示)不大;概率差描述受差分隐私保护的输出数据信息与真实数据信息的接近度;概率差越小说明差分隐私保护力度越高,此时根据输出信息推断真实信息的难度越大;隐私预算参数ε表示隐私保护程度,ε∈[0,1];本文用ε量化隐私损失等级;ε越小,隐私损失越小;
差分隐私意味着所有所有者或数据资产具有相同的隐私保护/损失等级ε;个性化差分隐私(Personalized Differential Privacy)指在差分隐私中每个数据资产或每个数据所有者都有自己的隐私损失容忍值ε′,ε′∈[0,1];ε′-PDP保护有两种实现机制:(1)拉普拉斯机制(laplace mechanism),用于数值型结果的保护;(2)指数机制(exponentialmechanism),用于离散型结果的保护;本文在差分隐私的基础上引入个性化差分隐私既能避免由隐私泄露导致的隐私套利,又满足用户不同隐私级别的保护需求;
Definition 2:(Personalized Differential Privacy)Regarding the tolerableprivacy loss ε′ of each user,a randomized mechanism M:D→R satisfies ε′-Personalized Differential Privacy(or ε′-PDP)if,for every pair of neighboringdatasets x,y∈D where x and y differs by only one record,and for any set ORange(M),
其中εx’表示数据集x的隐私损失容忍值,εy’表示数据集y的隐私损失容忍值,而min(εx’,εy’)表示数据集x和y较小的那个隐私损失容忍值;概率差越大,根据输出信息推断真实信息的难度越小;此时受差分隐私保护的数据信息与真实数据信息的接近度越高,数据资产价值较高;我们假设,对于一对相邻数据集,这种接近度用T(ε)表示,且对于多对相邻数据集,这种接近度用T(ε)表示,且n≥1;很容易理解数据资产价值∈(0,数据资产原始价值];如果我们用数据资产原始价值×T(ε)表示数据资产价值,那么T(ε)∈(0,1];到目前为止,我们归纳出函数T(ε)有两个充分条件:(1)(2)T(ε)∈(0,1];根据这两个充分条件,我们可以设计函数T(ε)为εi表示数据所有者的实际隐私损失;当min{εi}=0时,T(ε)取最小值当min{εi}=1时,T(ε)取最大值1;注意当min{εi}=0时,数据资产价值≠0;这很容易理解,数据隐私信息只是数据价值的一部分,因此完全脱敏的数据仍然有使用价值;当min{εi}=1时,数据资产价值=数据资产原始价值,此时数据资产的隐私不受保护;
总之,我们用εi量化数据所有者的个性化隐私损失,εi∈[0,1];并且引入个性化差分隐私保护数据所有者的潜在隐私损失和避免隐私套利;
·权限等级permission level
数据资产的供给方式根据权限开放程度的不同大致可以分为以下三种:
免费开放(Open and free):这是一种免费的数据资产供给方式;供应方把数据资产按照一定数据格式(主要是word、PDF、图片、Excel等数据格式)免费提供给需求方,比如网页资源的免费浏览、下载和转载;这种供给方式一般不限定买方对象、需求量和用途(法律规定除外),一般保留数据资产的产权和管理权,类似开源软件方式(Open SourceSoftware)、开源数据社区(Open Data Community);
有偿交易(Paid transaction):这是一种付费的数据资产供给方式;供应方把数据资产按照一定方式有偿提供给需求方,以此获得收益或者等价交换,可以参考实物商品的交易机制;数据资产作为一种无形商品,具有易复制、易传播、易加工等多种特性;这些特性使得数据资产交易附带产权界定、产权定价等多种复杂问题;
有偿服务(Paid Service):这是一种付费的供给方式;供应方为需求方提供有偿的数据服务,以此获得收益,类似实物商品的租赁机制;Paid Service与paid transaction相似却不相同,体现在它尽量避免产权、管理权等问题,仅涉及使用权和安全访问控制等问题;这种供应方式可以大大降低成本,并且一定程度上避免了产权纠纷;文献引用、软件使用权购买是典型的案例;
本文引入了多级权限的数据供给方式,让每个数据所有者都可以根据个人需求设置数据资产的权限开放等级o,o∈[0,1];o越小,权限保护水平越高;
B理论模型Theoretical model
数据集:数据集是源数据的整合与封装,通常以表格的形式出现,比如报表、专有数据集;每一列代表一个特定属性;每一行是一个数据元组,对应于某一成员的数据信息;对应于行数,该数据集可能包括一个或多个成员;
数据产品:数据产品是指以数据为驱动、可以发挥数据价值去辅助用户更优的做决策甚至行动的一种产品形式;它在用户的决策和行动过程中,充当信息分析的展示者和价值的使能者;数据产品包括智力成果(即方案设计、智库策略等)、数字作品(即数字媒体及音像制品等)等数据资源;
数据所有者(也是数据供给方):数据所有者指的是拥有数据的个体、机构或企业,为数据资产供应链提供原始的数据;数据所有者既是数据应用的消费者,也是数据的生产者;
数据加工方:数据加工方一般是政府、机构或企业,也可以是个体;他们通过采集、存储和整合源数据信息输出高质量的、高可用的数据集;
应用供给方:应用供给方一般是公司、企业或机构,也可以是个体;他们依赖于对数据集的分析和运用来解锁数据价值,从而指导数据产品/应用的生产;
1)数据资产供应链Data Asset Supply Chain
在介绍数据资产供应链之前,我们先简单介绍供应链的概念和流程框架;
供应链(SC,Supply Chain)的概念最早出现在20世纪80年代,描述的是一种集成过程:通过许多不同的商业实体(即供应商、制造商、分销商和零售商)共同努力,将原材料转换成产品,然后交付给客户;图1描述了传统供应链的流程框架;供应链上的活动包括采购原材料,制成中间产品以及最终产品,最后由销售网络把产品送到消费者手中;
基于传统供应链的流程设计和管理,我们分析数据资产供应链的数据资产和资金的流动特征;
数据资产供应链是一个通过数据资产将不同商业实体连成一个整体的功能链结构;围绕数据供给方,数据加工方,应用供给方和最终用户四个核心商业实体,数据资产的生命周期可分为源数据、数据集和数据应用三个阶段;图2描述了数据资产供应链的流程框架:(1)数据供给方将源数据以一个五元组(数据元组ID、数据质量、数据权威度、隐私损失、权限开放等级)为基本计量计价单位有偿提供给数据加工方;(2)数据加工方将源数据整合并封装形成高可用性的数据集,并售卖给应用供给方;(3)应用供给方通过数据加工、分析与使用将数据信息转换成最终数据产品,并由销售网把数据产品销售到终端用户手中;(4)终端用户在使用数据产品的过程中产生大量源数据,应用平台(数据加工方)沉淀这些源数据信息并以五元组为计量计价单位给予相应的数据价值补偿;
按照数据资产的流动方向,我们将数据资产供应链的商业实体分为上游、下游和终端;数据加工方为上游,应用供给方为下游,而终端用户为终端;见图2,上游负责数据资产的采集和整合,为下游输入数据以此获得合理的利润;下游的生产依赖于上游的数据供给;终端用户在使用数据应用的同时产生新的源数据;应用平台(上游)沉淀用户源数据并给出相应的补偿;通过如此循环往复,该数据资产供应链实现数据资产流动的闭环,用户是数据源源不断产生的根本;
2)模型设置和假设Meodel Setup and Assumptions
为了明确数据资产不同生命周期的价格制定原理,我们建立了一个数据资产交易和共享架构,见图3;
数据所有者也是终端用户,为数据加工方贡献价值为vi的源数据,并获得金额为yi(vi)的补偿;yi(vi)是关于价值vi的价值补偿函数;需要注意的是,数据加工方接收到的总价值V应当等于所有数据所有者贡献的价值总和即V=∑vi;并且,数据加工方支付给所有者的总价值补偿y(V)应当等于所有所有者的价值补偿总和,即y(V)=∑yi(vi);
数据加工方通过采集和整合数据所有者的源数据,为数据资产供应链输入高质量、大规模和可使用的数据集;单位数据集的价值量用小写字母v表示;
在数据资产交易和共享架构中,应用供给方也是数据集买方;应用供给方作为数据集买方提出数据查询请求bj(Q,cmax,n),Q表示查询语句,cmax表示最大预算,n表示预计购买量;数据加工方返回买方一个价格菜单供买方参考选择,如图9所示;图9中查询数据集的average deviation(e)可以用各种距离函数和相似度函数计算得到;比如数据类型的结果可以用欧几里得距离(Euclidean Distance)函数,而文本类型的则可以用余弦相似度(Cosine Similarity)函数;sample size(n)表示查询数据集样本的容量大小,比如对于文本型的数据集,n表示文本数目;对于记录型数据集,n表示记录数目;买方根据个人偏好选择价格套餐menu(e,n)并按单位数据集的价格ρs付费,其中e表示数据集平均偏差,n表示购买量;然后数据加工方返回业务处理结果{A(Q),ct,|RS|,e},其中A(Q)表示购买的数据集,ct表示买方余额,|RS|表示该数据集的size,e表示该数据集的平均偏差;
应用供给方为终端用户提供价值量为r′v的数据应用并按单位应用价格s收费;r′是数据价值的转换率,表示数据集的数据信息转变成产品时价值的不确定性;为了建立一个简单和容易处理的模型,我们假设r′在r和1之间均匀分布;r表示数据价值的最低转换率;
终端用户既是数据应用的消费者,又是数据的生产者;我们将终端用户的人数标准化为单位1;图3中u(θ,s)的θ表示用户支付数据应用单位价值的意愿,反应用户对数据应用单位价值的满意程度;s表示单位数据应用的价格;
3)定价机制研究Research on pricing mechanism
首先,我们需要明确源数据、数据集和数据应用的计量计价方式;根据数据资产交易和共享框架,数据所有者以五元组为计量计价的基本单位为数据加工方提供源数据和得到价值补偿;数据加工方整合源数据为一个数据集,并以一个集合为计量计价单位;最后应用供给方购买和应用该数据集信息生产数据应用,这里单份数据应用为一个计量计价单位;从中我们发现源数据、数据集和数据应用的计量计价单位存在对应关系,见图4;源数据和数据集的对应关系是n:1,因为一个数据集里包含了多条源数据信息;数据集和数据应用的对应关系是1:1;虽然一个数据集可以用于多个数据应用的生产,但在收益分成的计价方式中,数据应用的边际收益也是数据集的边际收益;因此,数据集和数据应用关于计量计价单位的对应关系是1:1;
其次,我们需要介绍源数据定价机制的特殊性;数据加工方(一般是企业、组织或机构)通常通过平台沉淀数据的方式采集和整合源数据;这种数据获取方式绑定了源数据的生产和出售;并且,这种数据获取方式不需要数据所有者花销额外的成本;因此,源数据的价格制定适合采用价值补偿的方式,即源数据的价格等价于源数据的价值;
我们用D表示应用的需求量;根据图4,D也表示数据集需求量;根据理论总利润=单位利润×需求量,传统分散定价机制(Decentralized pricing mechanism)的π1、π2和π可以表示为:
π1D=(k-τ-v)D (3)
π2D=(s-k-φ)D (4)
πD=π1D+π2D=(s-τ-v-φ)D (5)
我们的定价机制基于Nash议价机制,这种机制按比例分配收入;具体点来说,基于数据加工方输出的数据集,应用供给方为终端用户提供应用,按单价s收费,其中ρs支付给数据加工方,ρ∈[0,1];此时的数据加工方、应用供给方和数据资产供应链的利润函数如下:
π1N=(ρp-τ-v)D (6)
π2N=((1-ρ)p-φ)D (7)
πN=π1N+π2N=(p-τ-v-φ)D (8)
这种按比例分配收入的定价机制将数据加工方和应用供给方的利益绑定在一起;因此,只要将应用单价s和收入分配比例ρ设置为一个平衡值,那么就可以实现这二者利润的均衡;此外,数据资产供应链的整体利润同时受应用单价s和用户需求量D的制约;Nash议价机制相比传统分散定价机制的优点由后面的章节具体分析;
我们假设数据加工方输出价值为v的数据集;应用供给方为终端用户提供价值为r′v的应用并按应用的单价s收费;显然单位支付意愿为θ的用户购买应用的期望效用为当U≥0即时用户才会购买应用;是用户的最低单位支付意愿;为了建立一个简洁和容易处理的模型,我们假设单位支付意愿为θ的用户人数在0和θmax之间均匀分布;如果存在最大单位支付意愿θmax,那么用户的应用需求量为
基于数据资产不同生命周期阶段的价格制定原理,我们分析数据资产供应链的利润绩效:数据加工方利润、应用供给方利润、供应链整体利润和消费者盈余;
·分散定价机制Decentralized pricing mechanism
在传统的分散定价机制中,供应链的各个参与者都只考虑自己的利润而忽视整体的利润;我们将代入式子(3-5),并分别求解数据加工方和应用供给方的最大利润:
求解这个式子的优化问题,我们得到一个局部最优价格则这里进一步可得到我们计算可得到数据加工方、应用供给方和供应链的利润分别为消费者盈余是其中
·Nash议价机制Nash bargaining mechanism
在Nash议价机制中,供应链的各个参与者通过讨价还价寻求一个让大家都满意的价格,这种定价机制重视的是整体利润和利润分配的均衡性;我们将代入式子(6-8),并求解数据资产供应链的最大利润和能使各个参与者公平共享最大整体利润的收入分配比例ρ:
求解这个式子的优化问题,我们得到一个平衡价格其中进一步可得到根据sN和ρN可计算得到数据加工方、应用供给方和供应链的利润分别为消费者盈余是其中我们将它转换得到所以
比较两种机制下的利润绩效,我们发现π1D=π1N,π2D<π2N,πD<πN,并且CSD<CSN;这意味着Nash议价机制比传统分散定价机制具有更大的供应链利润和消费者盈余;此外我们发现,πN=πmax且π1N=π2N,这意味着各个参与者等比例共享供应链的最优利润,实现了数据资产交易和共享过程中的双赢;
基于价值定价源数据Pricing source data based on value
影响数据资产价值的因素有许多,所以几乎不可能设计出一个覆盖所有价值相关因素的定价机制;基于对多种典型数据资产的定价策略的分析,我们选出了数据质量、数据权威度、隐私损失和权限等级四个主要价值属性用于评估数据资产的价值;源数据的采集方式一般是平台沉淀而不需要数据所有者花销额外的成本;因此,源数据的价格制定仅依据价值评估而不考虑成本;
我们用q表示数据质量贡献的价格,用w表示数据权威度贡献的价格,εi表示个性化隐私损失,oi表示个性化权限开放等级;设α为数据质量权重,β为数据权威度权重,让它们满足以下约束:
α+β=1 (11)
则源数据价格y可以表示为y(q,w,εi,oi)=(q×α+w×β)×T(εi)×oi;这里,表示隐私损失为εi时数据资产价值与其原始价值的接近度;
基于Nash均衡定价数据集pricing data set based on Nash equilibrium
根据Nash议价机制,应用供给方向终端用户按应用单价s收费,其中的ρs是单位数据集的价格,ρ∈[0,1];则数据集单价为
基于Nash均衡定价数据产品/应用Pricing Data products/applications based onNash equilibrium
根据Nash议价机制,我们得到一个能使数据资产供应链的利润最大的数据应用单价,即
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910814765.1/1.html,转载请声明来源钻瓜专利网。