[发明专利]一种基于数据打包的隐私保护决策树的样本分类方法在审

专利信息
申请号: 202010817497.1 申请日: 2020-08-14
公开(公告)号: CN111967514A 公开(公告)日: 2020-11-20
发明(设计)人: 陈志立;李娜;张顺;仲红 申请(专利权)人: 安徽大学
主分类号: G06K9/62 分类号: G06K9/62;G06F21/60;G06F21/62;H04L9/00;H04L9/08;H04L9/14;H04L29/06
代理公司: 安徽省合肥新安专利代理有限责任公司 34101 代理人: 陆丽莉;何梅生
地址: 230601 安*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 数据 打包 隐私 保护 决策树 样本 分类 方法
【权利要求书】:

1.一种基于数据打包的隐私保护决策树的样本分类方法,其特征是应用于由n个参与方{P1,P2,...,Pi,...,Pn},一个主服务器C,一个从服务器S以及BCP系统组成的网络环境中;其中,Pi表示第i个参与方;所述第i个参与方Pi的本地样本集记为Ti,则n个参与方的本地样本集记为T,1≤i≤n;所述第i个参与方Pi的本地样本集Ti拥有s个属性,记为{Ai,1,Ai,2,...,Ai,j,...,Ai,s},其中,Ai,j表示本地样本集Ti的第j个属性;1≤j≤s;所述第j个属性Ai,j拥有t个可能的取值{ai,j,1,ai,j,2,...,ai,j,y,...,ai,j,t};其中,ai,j,y表示所述第j个属性Ai,j的第y个取值;1≤y≤t;所述第i个参与方Pi的本地样本集Ti拥有k个类标签,记为{ci,1,ci,2,...,ci,x,...,ci,k},其中,ci,x表示所述本地样本集Ti的第x个类标签;1≤x≤k;所述样本分类方法包括以下步骤:

步骤S1、初始化阶段:

所述从服务器S初始化BCP系统的设置阶段,并生成网络环境的公共参数PP,并将所述公共参数PP发送给所述主服务器C,所述主服务器C将公共参数PP发送给各个参与方,其中,所述第i个参与方Pi利用所述公共参数PP生成本地公私钥对(pki,ski);

步骤S2、参与方发送加密数据阶段:

步骤S2.1、第i个参与方Pi统计属性为ai,j,y的样本数|Ti(ai,j,y)|,以及属性为ai,j,y、类标签为ci,x的样本数|Ti(ai,j,y,ci,x)|;从而统计第j个属性Ai,j的所有t个取值的样本数{|Ti(ai,j,y)||y=1,2,…,t}以及第j个属性Ai,j的t个取值分别与k个类标签的样本数{|Ti(ai,j,y,ci,x)||y=1,2,…,t;x=1,2,…,k};进而得到所述本地样本集Ti的s个属性的所有t个取值的样本数{|Ti(ai,j,y)||j=1,2,…,s;y=1,2,…,t}以及所述本地样本集Ti的s个属性的t个取值分别与k个类标签的样本数{|Ti(ai,j,y,ci,x)||j=1,2,…,s;y=1,2,…,t;x=1,2,…,k};

步骤S2.2、数据打包:

第i个参与方Pi将样本数|Ti(ai,j,y)|和|Ti(ai,j,y,ci,x)|的位数均设置为NB,令BCP系统的明文空间为N,将所述明文空间N按照NB+L的位数均分为个样本数的存储空间,其中n为参与方总人数;

根据所述第i个参与方Pi的本地样本集Ti的s个属性对所述本地样本集Ti的s个属性的所有t个取值的样本数{|Ti(ai,j,y)||j=1,2,…,s;y=1,2,…,t}以及所述本地样本集Ti的s个属性的t个取值分别与k个类标签的样本数{|Ti(ai,j,y,ci,x)||j=1,2,…,s;y=1,2,…,t;x=1,2,…,k}进行分类,从而得到不同属性下的各个样本数,并将每个属性下的所有样本数进行数据打包,从而得到第i个参与方Pi打包后的数据mi';

步骤S2.3、第i个参与方Pi加密打包后的数据mi'后得到密文(Ai,Bi),并和步骤S1生成的公钥pki一起发送给主服务器C;

步骤S3、服务器处理加密数据阶段:

步骤S3.1、所述主服务器C收到公钥pki和密文(Ai,Bi)后,计算统一公钥

步骤S3.2、所述主服务器C与所述从服务器S合作,将所述密文(Ai,Bi)转换为统一公钥Prod.pk加密的密文(A′i,B′i);

步骤S3.3、利用式(1)得到统一公钥Prod.pk加密后的结果

步骤S3.4、所述主服务器C得到结果后,与所述从服务器S合作,将统一公钥Prod.pk加密的结果转换为第i个参与方Pi的公钥pki加密的密文

步骤S3.5、所述主服务器C将转换后的密文发送给相应的第i个参与方Pi

步骤S4、训练决策树并进行样本分类阶段:

步骤S4.1、第i个参与方Pi用自己的私钥ski解密密文并得到明文,第i个参与方Pi按每NB+1位从明文中提取相应样本数,从而得到n个参与方的属性为ai,j,y的样本数之和|T(aj,y)|,以及n个参与方的属性为ai,j,y、类标签为ci,x的样本数之和|T(aj,y,cx)|;

步骤S4.2、第i个参与方Pi根据式(2)得到属性Ai,j的条件熵E(T|Ai,j),并选择最小条件熵对应的属性作为当前根节点,从而由所述当前根节点的不同值建立决策树的分支;

式(2)中,|T|表示n个参与方的本地样本集T的总样本数;

步骤S4.3、第i个参与方Pi对当前树结点的各个分支对应的样本集递归调用步骤S2、S3、S4,从而建立决策树结点的分支,直到所有分支对应的样本集仅包含同一类别的样本数为止,最后得到一颗训练好的决策树模型,并用于样本分类。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽大学,未经安徽大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010817497.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top