[发明专利]一种数据处理方法和系统有效
申请号: | 201710375154.2 | 申请日: | 2017-05-24 |
公开(公告)号: | CN107301350B | 公开(公告)日: | 2020-07-14 |
发明(设计)人: | 刘希;马宁;唐妍 | 申请(专利权)人: | 国信优易数据有限公司 |
主分类号: | G06F21/62 | 分类号: | G06F21/62 |
代理公司: | 北京青松知识产权代理事务所(特殊普通合伙) 11384 | 代理人: | 郑青松 |
地址: | 100070 北京市丰台*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 系统 | ||
1.一种数据处理方法,其特征在于,包括以下步骤:
获取待处理的源数据;
确定源数据中可以被用来识别数据主体的信息;
确定所述用来识别数据主体的信息的类型;
根据所述用来识别数据主体的信息类型采用相应的处理方式来对所述信息进行处理;
对处理后的数据进行验证;
其中,根据所述用来识别数据主体的信息类型采用相应的处理方式来对所述信息进行处理包括:
确定重身份化风险阈值;
确定源数据中可以被用来识别数据主体的信息,所述信息包括:直接标识符、准标识符和高维数据;
确定所述信息中的所述直接标识符;
直接移除所述直接标识符或者遮蔽所述直接标识符;
根据可用于网络攻击的准标识符和非标识符数据值建立攻击模型;
根据处理之后的所述源数据的应用场景确定最小可接受数据质量;
转换所述准标识符。
2.根据权利要求1所述的数据处理方法,所述数据处理方式包括:分别确定所述用来识别数据主体的信息中的各标识属性或敏感属性的数据的加密级别,根据确定的各标识属性或敏感属性的数据的加密级别确定相应的加密方法,以对各标识属性或敏感属性的数据进行加密。
3.根据权利要求1所述的数据处理方法,所述数据处理方式包括:移除所述用来识别数据主体的信息中的直接标识符,移除所述用来识别数据主体的信息中所有记录的部分或所有其他标识属性,为所述用来识别数据主体的信息中的每一数据主体创建唯一标识符代替所述直接标识符。
4.根据权利要求1所述的数据处理方法,其特征在于,所述准标识符包括数值型标识符、日期信息、地理位置信息,
所述转换所述准标识符包括基于所述准标识符的类型属性采取相应的转换方式以使得攻击者无法从转换后的信息中识别关于所述主体的信息,其中,
对于数值型标识符中的离群点的值,转换成大于或者小于特定值;
对于数值型标识符中的连续属性,转换成通过预设方法计算的平均值;
对于数值型标识符中的小数值数据,转换成组合数据;
对于数值型标识符中具有高可识别性的特殊值,进行直接移除或者转换成估算值;
对于数值型标识符中表征所述数据主体属性的数据记录,进行交换处理;
对于日期信息中的日期,泛化到年份的维度或者使用其他日期进行替代;
对于地理位置信息,采用加入距离噪声的方式进行模糊化处理。
5.根据权利要求1所述的数据处理方法,其特征在于,所述对处理后的数据进行验证包括:对源数据和处理之后的数据统计计算,查看所述处理之后的数据是否包含标识信息,如果还包含标识信息则将所述处理之后的数据重新进行识别和处理直到不含标识信息,并确定所述处理之后的数据是否包含不可接受的更改,并确定是否可以用于预期目的。
6.一种数据处理系统,其特征在于,包括:
数据获取单元,用于获取待处理的源数据;
第一数据识别单元,用于确定源数据中可以被用来识别数据主体的信息;
第二数据识别单元,用于确定所述用来识别数据主体的信息的类型;
数据处理单元,用于根据所述用来识别数据主体的信息类型采用相应的处理方式来对所述信息进行处理;
数据验证单元,用于对处理后的数据进行验证;
其中,所述数据处理单元根据所述用来识别数据主体的信息类型采用相应的处理方式来对所述信息进行处理包括:
确定重身份化风险阈值;
确定源数据中可以被用来识别数据主体的信息,所述信息包括:直接标识符、准标识符和高维数据;
确定所述信息中的所述直接标识符;
直接移除所述直接标识符或者遮蔽所述直接标识符;
根据可用于网络攻击的准标识符和非标识符数据值建立攻击模型;
根据处理之后的所述源数据的应用场景确定最小可接受数据质量;
转换所述准标识符。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国信优易数据有限公司,未经国信优易数据有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710375154.2/1.html,转载请声明来源钻瓜专利网。