[发明专利]一种开放场景下信息泄露概率的计算方法在审
申请号: | 202110282667.5 | 申请日: | 2021-03-16 |
公开(公告)号: | CN112948881A | 公开(公告)日: | 2021-06-11 |
发明(设计)人: | 李辉;龚政;赵柯纯;史静文 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06K9/62 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 张海平 |
地址: | 710071 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 开放 场景 信息 泄露 概率 计算方法 | ||
本发明公开了一种开放场景下信息泄露概率的计算方法,包括以下步骤:1)构建公开数据池;2)对公开数据池中的数据进行列聚类;3)计算步骤2)得到的各列的聚类结果被攻击者攻击成功的概率,完成开放场景下信息泄露概率的计算,该方法准确计算信息泄露的概率。
技术领域
本发明属于数据安全技术领域,涉及一种开放场景下信息泄露概率的计算方法。
背景技术
在现如今的大数据时代,充分探寻数据背后的价值具有无穷多的前景和应用,例如决策的制定,人际关系的挖掘,以及信息的智能推荐等等。但是,在这些极具前景的应用场景中,大数据的使用将会不可避免地带来很多隐私方面的问题。目前,很多泄露个人隐私的攻击手段已经被运用到了原本被用于研究的公开数据集中,造成了严重的后果。这些攻击手段结合网络分析,数据挖掘,以及其他技术,可以基于一定的背景知识来推测某些记录的身份,这就是臭名昭著的“记录链接攻击”。更具体地说,根据“记录链接攻击”,对于多元结构化数据,攻击者可以将直接体现用户身份的个人识别属性(例如身份证号和银行卡号),或者将不会直接暴露用户身份的准标识符(例如生日,性别和年龄)与他的背景知识结合起来,去识别数据库中特定的一组用户,从而泄露其隐私信息。
针对上述亟待解决的隐私安全问题,先前的研究中提供了一种基于攻击概率的数据库属性敏感度分级方法,该方法可以将数据库中所有属性根据攻击者攻击成功的概率进行敏感度的评分和分级,为数据使用者提供了各属性敏感度方面的参考,并为进一步的数据脱敏工作做好了铺垫。然而,该方法需要数据库管理者或相关风险评估专家,基于数据库中某些属性的已公开发布情况,以及现有的某些经验,推测出攻击者提前获取某些列的概率。显然,这种经验性的定量方式不够准确,不能客观精确地衡量这些列的获取概率,从而就会使数据敏感度量化评级的结果产生偏差,进一步影响后续的数据脱敏工作。
发明内容
本发明的目的在于克服上述现有技术的缺点,提供了一种开放场景下信息泄露概率的计算方法,该方法准确计算信息泄露的概率。
为达到上述目的,本发明所述的开放场景下信息泄露概率的计算方法包括以下步骤:
1)构建公开数据池;
2)对公开数据池中的数据进行列聚类;
3)计算步骤2)得到的各列的聚类结果被攻击者攻击成功的概率,完成开放场景下信息泄露概率的计算。
步骤1)的具体操作为:
从公开数据源中进行抽取数据,并汇集于指定的数据集中,再以此建立公开数据池。
步骤2)的具体操作为:
2a)将公开数据池中的所有数据按照属性进行分割,以建立列集合;
2b)将所有列名向量利用其余弦相似度作为距离进行聚类,得各列的聚类结果。
步骤2b)中还包括:采用词嵌入工具将各列的汉语列名转化为列名向量。
步骤2b)中,采用K-means聚类方法进行聚类。
设公开数据池有N个数据库,公开数据池的数据量为R=r1+r2+...+rN,列聚类后,类别a中有M个列,其对应的数据库行数分别为Ra=r1+r2+...+rM;
则该类别的属性列被攻击者获取的概率
本发明具有以下有益效果:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110282667.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种无障碍通道用轮椅上下坡辅助设备
- 下一篇:一种防止消防栓结冰装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置