[发明专利]敏感数据识别方法、装置、设备以及存储介质在审

申请号：	202310301706.0	申请日：	2023-03-24
公开（公告）号：	CN116226670A	公开（公告）日：	2023-06-06
发明（设计）人：	孙燕杰;孔维玉;袁开国;付海涛;司大鹏;石明磊;陆毅远	申请（专利权）人：	上海速丰通联科技集团有限公司
主分类号：	G06F18/214	分类号：	G06F18/214;G06F18/2413;G06N20/00;G06F21/62
代理公司：	北京华专卓海知识产权代理事务所(普通合伙) 11664	代理人：	张帅杰
地址：	201111 上海***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	敏感数据识别方法装置设备以及存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开的实施例提供了一种敏感数据识别方法、装置、设备以及存储介质，应用于机器学习技术领域。该方法包括：获取样本集，其中，样本集中的样本包括特征向量及其对应的标签，标签用于标识特征向量所属的数据是否为敏感数据；对样本集进行过采样；根据过采样后的样本集对代价敏感模型进行训练，将训练完成的代价敏感模型作为敏感数据识别模型。以此方式，可以基于过采样解决样本不均衡导致的过拟合问题，并通过对代价敏感模型进行训练得到识别能力较强的敏感数据识别模型，进而基于该模型快速精确地识别待识别的数据是否为敏感数据，有效地提高敏感数据识别效果。

技术领域

本公开涉及机器学习技术领域，尤其涉及一种敏感数据识别方法、装置、设备以及存储介质。

背景技术

随着云计算、大数据的快速发展，数据已经成为各行各业的重要资产，医疗、人社、保险、税务、银行和社交网络等各类数据平台和信息采集系统，汇聚了越来越多与个人隐私信息相关的敏感数据。一旦数据发生外泄，势必带来无法估计的损失和伤害。因此，在对数据的安全管理中，敏感数据的识别，是数据安全管理中的重要组成部分。

目前，常用的敏感数据识别方案，通常基于机器学习算法实现，普遍存在效果较差的问题。因此，如何提高敏感数据识别效果就成为了目前亟待解决的技术问题。

发明内容

本公开的实施例提供了一种敏感数据识别方法、装置、设备以及存储介质。

第一方面，本公开的实施例提供了一种敏感数据识别模型的训练方法，该方法包括：

获取样本集，其中，样本集中的样本包括特征向量及其对应的标签，标签用于标识特征向量所属的数据是否为敏感数据；

对样本集进行过采样；

根据过采样后的样本集对代价敏感模型进行训练，将训练完成的代价敏感模型作为敏感数据识别模型。

在第一方面的一些可实现方式中，获取样本集，包括：