[发明专利]一种基于数据打包的隐私保护决策树的样本分类方法在审

申请号：	202010817497.1	申请日：	2020-08-14
公开（公告）号：	CN111967514A	公开（公告）日：	2020-11-20
发明（设计）人：	陈志立;李娜;张顺;仲红	申请（专利权）人：	安徽大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06F21/60;G06F21/62;H04L9/00;H04L9/08;H04L9/14;H04L29/06
代理公司：	安徽省合肥新安专利代理有限责任公司 34101	代理人：	陆丽莉;何梅生
地址：	230601 安***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于数据打包隐私保护决策树样本分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于数据打包的隐私保护决策树的样本分类方法，其特征是应用于由n个参与方{P₁,P₂,...,P_i,...,P_n}，一个主服务器C，一个从服务器S以及BCP系统组成的网络环境中；其中，P_i表示第i个参与方；所述第i个参与方P_i的本地样本集记为T_i，则n个参与方的本地样本集记为T，1≤i≤n；所述第i个参与方P_i的本地样本集T_i拥有s个属性，记为{A_i,1,A_i,2,...,A_i,j,...,A_i,s}，其中，A_i,j表示本地样本集T_i的第j个属性；1≤j≤s；所述第j个属性A_i,j拥有t个可能的取值{a_i,j,1,a_i,j,2,...,a_i,j,y,...,a_i,j,t}；其中，a_i,j,y表示所述第j个属性A_i,j的第y个取值；1≤y≤t；所述第i个参与方P_i的本地样本集T_i拥有k个类标签，记为{c_i,1,c_i,2,...,c_i,x,...,c_i,k}，其中，c_i,x表示所述本地样本集T_i的第x个类标签；1≤x≤k；所述样本分类方法包括以下步骤：

步骤S1、初始化阶段：

所述从服务器S初始化BCP系统的设置阶段,并生成网络环境的公共参数PP,并将所述公共参数PP发送给所述主服务器C，所述主服务器C将公共参数PP发送给各个参与方，其中，所述第i个参与方P_i利用所述公共参数PP生成本地公私钥对(pk_i,sk_i)；

步骤S2、参与方发送加密数据阶段：

步骤S2.1、第i个参与方P_i统计属性为a_i,j,y的样本数|T_i(a_i,j,y)|，以及属性为a_i,j,y、类标签为c_i,x的样本数|T_i(a_i,j,y,c_i,x)|；从而统计第j个属性A_i,j的所有t个取值的样本数{|T_i(a_i,j,y)||y＝1,2,…,t}以及第j个属性A_i,j的t个取值分别与k个类标签的样本数{|T_i(a_i,j,y,c_i,x)||y＝1,2,…,t；x＝1,2,…,k}；进而得到所述本地样本集T_i的s个属性的所有t个取值的样本数{|T_i(a_i,j,y)||j＝1,2,…,s；y＝1,2,…,t}以及所述本地样本集T_i的s个属性的t个取值分别与k个类标签的样本数{|T_i(a_i,j,y,c_i,x)||j＝1,2,…,s；y＝1,2,…,t；x＝1,2,…,k}；

步骤S2.2、数据打包：

第i个参与方P_i将样本数|T_i(a_i,j,y)|和|T_i(a_i,j,y,c_i,x)|的位数均设置为N_B，令BCP系统的明文空间为N，将所述明文空间N按照N_B+L的位数均分为个样本数的存储空间，其中n为参与方总人数；

根据所述第i个参与方P_i的本地样本集T_i的s个属性对所述本地样本集T_i的s个属性的所有t个取值的样本数{|T_i(a_i,j,y)||j＝1,2,…,s；y＝1,2,…,t}以及所述本地样本集T_i的s个属性的t个取值分别与k个类标签的样本数{|T_i(a_i,j,y,c_i,x)||j＝1,2,…,s；y＝1,2,…,t；x＝1,2,…,k}进行分类，从而得到不同属性下的各个样本数，并将每个属性下的所有样本数进行数据打包，从而得到第i个参与方P_i打包后的数据m_i'；

步骤S2.3、第i个参与方P_i加密打包后的数据m_i'后得到密文(A_i,B_i)，并和步骤S1生成的公钥pk_i一起发送给主服务器C；

步骤S3、服务器处理加密数据阶段：

步骤S3.1、所述主服务器C收到公钥pk_i和密文(A_i,B_i)后，计算统一公钥

步骤S3.2、所述主服务器C与所述从服务器S合作,将所述密文(A_i,B_i)转换为统一公钥Prod.pk加密的密文(A′_i,B′_i)；

步骤S3.3、利用式(1)得到统一公钥Prod.pk加密后的结果

步骤S3.4、所述主服务器C得到结果后，与所述从服务器S合作,将统一公钥Prod.pk加密的结果转换为第i个参与方P_i的公钥pk_i加密的密文

步骤S3.5、所述主服务器C将转换后的密文发送给相应的第i个参与方P_i；

步骤S4、训练决策树并进行样本分类阶段：

步骤S4.1、第i个参与方P_i用自己的私钥sk_i解密密文并得到明文，第i个参与方P_i按每N_B+1位从明文中提取相应样本数，从而得到n个参与方的属性为a_i,j,y的样本数之和|T(a_j,y)|，以及n个参与方的属性为a_i,j,y、类标签为c_i,x的样本数之和|T(a_j,y,c_x)|；

步骤S4.2、第i个参与方P_i根据式(2)得到属性A_i,j的条件熵E(T|A_i,j)，并选择最小条件熵对应的属性作为当前根节点，从而由所述当前根节点的不同值建立决策树的分支；

式(2)中，|T|表示n个参与方的本地样本集T的总样本数；

步骤S4.3、第i个参与方P_i对当前树结点的各个分支对应的样本集递归调用步骤S2、S3、S4，从而建立决策树结点的分支，直到所有分支对应的样本集仅包含同一类别的样本数为止，最后得到一颗训练好的决策树模型，并用于样本分类。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于安徽大学，未经安徽大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010817497.1/1.html，转载请声明来源钻瓜专利网。

上一篇：一种纳米瓷釉着色剂
下一篇：一种可以实现原理图电气互连的设计系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于数据打包的隐私保护决策树的样本分类方法在审

专利文献下载