[发明专利]一种面向数据发布的隐私暴露实时监测方法在审
申请号: | 201811118685.4 | 申请日: | 2018-09-26 |
公开(公告)号: | CN109308295A | 公开(公告)日: | 2019-02-05 |
发明(设计)人: | 柯昌博;陈成;张力中;吴佳挺 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F16/23 | 分类号: | G06F16/23;G06F16/24;G06F21/62 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 颜盈静 |
地址: | 210046 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据发布 实时监测 隐私 数据库 关键词查找 综合服务器 安全级别 键盘交互 历史信息 敏感级别 输入行为 隐私信息 用户信息 用户终端 敏感度 暴露 比对 匹配 服务器 终端 查找 反馈 返回 监测 记录 | ||
1.一种面向数据发布的隐私暴露实时监测方法,其特征在于:包括:
获取用户输入内容的步骤;
对用户输入内容进行查找匹配并得到所需关键词的步骤:将用户输入内容根据汉字语法特征分解成若干单独的词语,通过模糊匹配和KMP算法相结合,得到相应关键词;
通过关键词查找数据库,并得到对应的敏感度数值的步骤:首先判断关键词是否是数据库中存储的关键词,若是,则对明确是关键词的数据得到对应的敏感度数值,该数值存储在数据库中,若不是,则返回不警告信息;若敏感度数值大于预先设定的门限值则判断为危险,提出警告,返回给终端,若不大于该门限值,则返回不警告信息;
用户终端根据反馈得到的敏感度数值执行相应操作的步骤。
2.根据权利要求1所述的一种面向数据发布的隐私暴露实时监测方法,其特征在于:
所述模糊匹配算法为:根据两汉字之间的编辑距离,通过预先设定阈值,若该编辑距离小于阈值则视为该两汉字匹配成功;所述编辑距离由字音编辑距离和字形编辑距离累加得到,将汉字拼音划分为声母、韵母和声调,并分别赋予其权重,被赋予权重后的声母、韵母和声调累加得到字音编辑距离;字形由四角号码数据得到,将四角号码四个角赋予其权重,将两汉字的四角号码比较后,并累加得到字形编辑距离;
将所述KMP算法中判断两字符是否相等的语句替换成模糊匹配函数distance_compare(char c_a,char c_b),实现模糊匹配和KMP算法相结合。
3.根据权利要求2所述的一种面向数据发布的隐私暴露实时监测方法,其特征在于:所述声母、韵母和声调被赋予的权重不等,所述四角号码四个角被赋予相同的权重。
4.根据权利要求2所述的一种面向数据发布的隐私暴露实时监测方法,其特征在于:通过调整模糊匹配算法的阈值,对用户输入的内容进行纠错。
5.根据权利要求1所述的一种面向数据发布的隐私暴露实时监测方法,其特征在于:还包括初始化数据库的步骤和更新数据库的步骤;
所述的初始化数据库的步骤为:通过用户的设定来获得初始的关键词和其对应的敏感度数值,并存储至数据库;
所述的更新数据库的步骤:敏感度数值计算公式为:
y=ws[0]*k+ws[1]*x[0]+ws[2]*x[1]
其中,y表示预测得到的敏感度数值,ws[0],ws[1],ws[2]分别为回归系数矩阵中的三个值,所述回归系数为通过训练数据集得到的各个输入值在预测中占据的比重,k表示的是偏移量,x[0]表示的是第一个输入参数,为上一个统计周期中关键词在数据库中当前的敏感度数值,x[1]表示的是第二个输入参数,为上一个统计周期中该关键词使用的次数,根据敏感度计算程序,输入在上一个统计周期中的某个关键词的使用次数和该关键词在数据库中当前的敏感度数值,得到修正之后的敏感度数值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811118685.4/1.html,转载请声明来源钻瓜专利网。