[发明专利]一种用于敏感数据泄露检测的关键词语义分类方法与系统在审
申请号: | 202010578950.8 | 申请日: | 2020-06-23 |
公开(公告)号: | CN111694961A | 公开(公告)日: | 2020-09-22 |
发明(设计)人: | 陶景龙;梁淑云;刘胜;马影;王启凡;魏国富;殷钱安;余贤喆;周晓勇 | 申请(专利权)人: | 上海观安信息技术股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/9532;G06F40/30;G06K9/62 |
代理公司: | 合肥市浩智运专利代理事务所(普通合伙) 34124 | 代理人: | 张景云 |
地址: | 200333 上海市浦东新*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 敏感数据 泄露 检测 关键词 语义 分类 方法 系统 | ||
1.一种用于敏感数据泄露检测的关键词语义分类方法,其特征在于:包括以下步骤:
S01,输入敏感关键词库;
S02,词向量化,使用自然语言处理技术对关键词库向量化;
S03,数据降维,对每个关键词对应的向量数据降维;
S04,聚类分析,对已经降维的向量数据,进行聚类分析;
S05,类别标识,对已经完成聚类分析的关键词向量,结合业务对关键词类别进行标识;
S06,类别优化,根据所有已经标识的类别标签,对每个类别进行关键词分组优化;
S07,输出敏感关键词库类别。
2.根据权利要求1所述的一种用于敏感数据泄露检测的关键词语义分类方法,其特征在于:S01中的方法为:与系统维护和相关业务人员确定已经准备好的待分类的关键词库,作为输入内容,记为集合K。
3.根据权利要求1所述的一种用于敏感数据泄露检测的关键词语义分类方法,其特征在于:S02中的方法为:使用自然语言处理工具BERT,对输入内容K中的所有词汇,进行词向量转换,生成向量化的关键词库集合Kv。
4.根据权利要求3所述的一种用于敏感数据泄露检测的关键词语义分类方法,其特征在于:词向量转换具体方法为:部署Bert-serving词向量转化服务;然后使用Bert-serving对集合K内的所有词汇进行向量转换,生成词向量集合Kv。
5.根据权利要求3或4所述的一种用于敏感数据泄露检测的关键词语义分类方法,其特征在于:步骤S03方法具体为:对集合Kv进行降维;集合Kv中的每个关键词向量都为768高维数组矩阵,使用TSEN降维算法将每个关键词向量处理为2维数据。
6.根据权利要求1所述的一种用于敏感数据泄露检测的关键词语义分类方法,其特征在于:步骤S04方法具体为:使用Kmeans算法对S03生成的关键词向量集合Kv进行聚类分析,得出n个关键词向量类别,对应至集合K,即获得已经具有分类标签的关键词库Kn,其中类别n的设定是由算法模型构建过程中自动获取的最优数值。
7.根据权利要求6所述的一种用于敏感数据泄露检测的关键词语义分类方法,其特征在于:S05中的方法为:专家介入,对Kn的类别标签进行业务属性标识,得到有业务领域分类的KN。
8.根据权利要求7所述的一种用于敏感数据泄露检测的关键词语义分类方法,其特征在于:S06中的方法为:在S05的分析结果中,经过业务专家选定重点关注的关键词类别KNx作为后续工作使用,具体为:将KNx中的所有词作为计算对象KNxi,然后在关键词向量集合Kv中寻找与计算对象语义相似度高于百分之九十的词汇补充至重点关键词类别KNx中,得到类别优化后的重点关键词汇类别KNX;
其中相似度计算采用余弦相似度计算,公式如下:
其中A、B分别代表需要计算相似度的两个对象,i代表对象位置,n代表对象长度。
9.一种用于敏感数据泄露检测的关键词语义分类系统,其特征在于:应用于权利要求1至8任一所述的方法,包括
输入模块,输入敏感关键词库;
词向量化模块,使用自然语言处理技术对关键词库向量化;
数据降维模块,对每个关键词对应的向量数据降维;
聚类分析模块,对已经降维的向量数据,进行聚类分析;
类别标识模块,对已经完成聚类分析的关键词向量,结合业务对关键词类别进行标识;
类别优化模块,根据所有已经标识的类别标签,对每个类别进行关键词分组优化;
输出模块,输出敏感关键词库类别。
10.根据权利要求9所述的一种用于敏感数据泄露检测的关键词语义分类系统,其特征在于:所述类别优化模块具体优化过程为:经过业务专家选定重点关注的关键词类别KNx作为后续工作使用,具体为:将KNx中的所有词作为计算对象KNxi,然后在关键词向量集合Kv中寻找与计算对象语义相似度高于百分之九十的词汇补充至重点关键词类别KNx中,得到类别优化后的重点关键词汇类别KNX;
其中相似度计算采用余弦相似度计算,公式如下:
其中A、B分别代表需要计算相似度的两个对象,i代表对象位置,n代表对象长度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海观安信息技术股份有限公司,未经上海观安信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010578950.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种建筑材料研发用切割取样装置
- 下一篇:基于物联网的智能保健系统