[发明专利]一种基于数据打包的隐私保护决策树的样本分类方法在审
申请号: | 202010817497.1 | 申请日: | 2020-08-14 |
公开(公告)号: | CN111967514A | 公开(公告)日: | 2020-11-20 |
发明(设计)人: | 陈志立;李娜;张顺;仲红 | 申请(专利权)人: | 安徽大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F21/60;G06F21/62;H04L9/00;H04L9/08;H04L9/14;H04L29/06 |
代理公司: | 安徽省合肥新安专利代理有限责任公司 34101 | 代理人: | 陆丽莉;何梅生 |
地址: | 230601 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 打包 隐私 保护 决策树 样本 分类 方法 | ||
1.一种基于数据打包的隐私保护决策树的样本分类方法,其特征是应用于由n个参与方{P1,P2,...,Pi,...,Pn},一个主服务器C,一个从服务器S以及BCP系统组成的网络环境中;其中,Pi表示第i个参与方;所述第i个参与方Pi的本地样本集记为Ti,则n个参与方的本地样本集记为T,1≤i≤n;所述第i个参与方Pi的本地样本集Ti拥有s个属性,记为{Ai,1,Ai,2,...,Ai,j,...,Ai,s},其中,Ai,j表示本地样本集Ti的第j个属性;1≤j≤s;所述第j个属性Ai,j拥有t个可能的取值{ai,j,1,ai,j,2,...,ai,j,y,...,ai,j,t};其中,ai,j,y表示所述第j个属性Ai,j的第y个取值;1≤y≤t;所述第i个参与方Pi的本地样本集Ti拥有k个类标签,记为{ci,1,ci,2,...,ci,x,...,ci,k},其中,ci,x表示所述本地样本集Ti的第x个类标签;1≤x≤k;所述样本分类方法包括以下步骤:
步骤S1、初始化阶段:
所述从服务器S初始化BCP系统的设置阶段,并生成网络环境的公共参数PP,并将所述公共参数PP发送给所述主服务器C,所述主服务器C将公共参数PP发送给各个参与方,其中,所述第i个参与方Pi利用所述公共参数PP生成本地公私钥对(pki,ski);
步骤S2、参与方发送加密数据阶段:
步骤S2.1、第i个参与方Pi统计属性为ai,j,y的样本数|Ti(ai,j,y)|,以及属性为ai,j,y、类标签为ci,x的样本数|Ti(ai,j,y,ci,x)|;从而统计第j个属性Ai,j的所有t个取值的样本数{|Ti(ai,j,y)||y=1,2,…,t}以及第j个属性Ai,j的t个取值分别与k个类标签的样本数{|Ti(ai,j,y,ci,x)||y=1,2,…,t;x=1,2,…,k};进而得到所述本地样本集Ti的s个属性的所有t个取值的样本数{|Ti(ai,j,y)||j=1,2,…,s;y=1,2,…,t}以及所述本地样本集Ti的s个属性的t个取值分别与k个类标签的样本数{|Ti(ai,j,y,ci,x)||j=1,2,…,s;y=1,2,…,t;x=1,2,…,k};
步骤S2.2、数据打包:
第i个参与方Pi将样本数|Ti(ai,j,y)|和|Ti(ai,j,y,ci,x)|的位数均设置为NB,令BCP系统的明文空间为N,将所述明文空间N按照NB+L的位数均分为个样本数的存储空间,其中n为参与方总人数;
根据所述第i个参与方Pi的本地样本集Ti的s个属性对所述本地样本集Ti的s个属性的所有t个取值的样本数{|Ti(ai,j,y)||j=1,2,…,s;y=1,2,…,t}以及所述本地样本集Ti的s个属性的t个取值分别与k个类标签的样本数{|Ti(ai,j,y,ci,x)||j=1,2,…,s;y=1,2,…,t;x=1,2,…,k}进行分类,从而得到不同属性下的各个样本数,并将每个属性下的所有样本数进行数据打包,从而得到第i个参与方Pi打包后的数据mi';
步骤S2.3、第i个参与方Pi加密打包后的数据mi'后得到密文(Ai,Bi),并和步骤S1生成的公钥pki一起发送给主服务器C;
步骤S3、服务器处理加密数据阶段:
步骤S3.1、所述主服务器C收到公钥pki和密文(Ai,Bi)后,计算统一公钥
步骤S3.2、所述主服务器C与所述从服务器S合作,将所述密文(Ai,Bi)转换为统一公钥Prod.pk加密的密文(A′i,B′i);
步骤S3.3、利用式(1)得到统一公钥Prod.pk加密后的结果
步骤S3.4、所述主服务器C得到结果后,与所述从服务器S合作,将统一公钥Prod.pk加密的结果转换为第i个参与方Pi的公钥pki加密的密文
步骤S3.5、所述主服务器C将转换后的密文发送给相应的第i个参与方Pi;
步骤S4、训练决策树并进行样本分类阶段:
步骤S4.1、第i个参与方Pi用自己的私钥ski解密密文并得到明文,第i个参与方Pi按每NB+1位从明文中提取相应样本数,从而得到n个参与方的属性为ai,j,y的样本数之和|T(aj,y)|,以及n个参与方的属性为ai,j,y、类标签为ci,x的样本数之和|T(aj,y,cx)|;
步骤S4.2、第i个参与方Pi根据式(2)得到属性Ai,j的条件熵E(T|Ai,j),并选择最小条件熵对应的属性作为当前根节点,从而由所述当前根节点的不同值建立决策树的分支;
式(2)中,|T|表示n个参与方的本地样本集T的总样本数;
步骤S4.3、第i个参与方Pi对当前树结点的各个分支对应的样本集递归调用步骤S2、S3、S4,从而建立决策树结点的分支,直到所有分支对应的样本集仅包含同一类别的样本数为止,最后得到一颗训练好的决策树模型,并用于样本分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽大学,未经安徽大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010817497.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种纳米瓷釉着色剂
- 下一篇:一种可以实现原理图电气互连的设计系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置