[发明专利]一种保留分布特征的姓名脱敏方法有效

申请号：	201910366230.2	申请日：	2019-05-05
公开（公告）号：	CN110175468B	公开（公告）日：	2020-12-01
发明（设计）人：	张江鑫;张名民;李建元;蒋立靓;沈晓宇;钱裕佳	申请（专利权）人：	浙江工业大学;银江股份有限公司
主分类号：	G06F21/62	分类号：	G06F21/62
代理公司：	杭州斯可睿专利事务所有限公司 33241	代理人：	王利强
地址：	310014 浙江省***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种保留分布特征姓名方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种保留分布特征的姓名脱敏方法，其特征在于，所述方法包括如下步骤：

(1)收集待脱敏姓名数据；

(2)判断待脱敏姓名数据是否符合规范，将异常数据放入异常数据集单独处理；

(3)对合规的待脱敏数据进行抽样统计，对姓、名生成概率密度区间，分级设置权重生成概率密度权重区间；

(4)针对具体待脱敏姓名，分别判断姓和名所在概率密度区间的级别，然后将姓名中的字分别转化为Unicode码，计算姓、名脱敏后所在的区间系数：

fNamecoef＝(2*Unicode₁+Unicode₂+Unicode₃)mod L₁

lName₁coef＝(Unicode₁+2*Unicode₂+Unicode₃)mod L₂

lName₂coef＝(Unicode₁+Unicode₂+2*Unicode₃)mod L₃

其中L₁、L₂、L₃为对应级别的概率密度权重区间的总长度；

(5)根据(4)所得出的系数结合各级别的概率密度权重区间表得出脱敏后的名字。

2.如权利要求1所述的一种保留分布特征的姓名脱敏方法，其特征在于，所述异常数据，是指长度小于或等于1位及长度大于5位的姓名数据。

3.如权利要求1所述的一种保留分布特征的姓名脱敏方法，其特征在于，所述(3)的过程如下：

(3.1)将待脱敏姓名数据转化为长度为n的一维数组作为抽样的样本空间：

Name＝[name₁，name₂，name₃，...，name_n]

(3.2)根据样本空间Name大小确定抽样数据集大小，建立均匀随机采样样本，对样本中的姓名进行分割，分割成姓和其余字，分别统计生成概率密度表，根据概率分级设置权重，并设置每个姓的概率密度权重区间为[前面所有姓的权重之和，当前姓权重加上前面所有姓的权重之和)，每个字的概率密度权重区间为[前面所有字的权重之和，当前字权重加上前面所有字的权重之和)。

4.如权利要求3所述的一种保留分布特征的姓名脱敏方法，其特征在于，所述建立均匀随机采样样本，具体为：

设置产生均匀随机数的混合线性同余发生器：

X_i+1＝(aX_i+c)mod m， i≥0. 公式1

设置参数a、c、m及初始值X₀代入公式1进行计算，根据拒绝采样原理，生成均匀随机序列：

[X₀，X₁，X₂，...，X_k]

其中，k表示均匀随机序列的长度；

以产生的均匀随机数作为索引，在样本空间中查找对应的姓名，形成均匀随机采样样本。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江工业大学;银江股份有限公司，未经浙江工业大学;银江股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910366230.2/1.html，转载请声明来源钻瓜专利网。