[发明专利]数据泄露识别方法、装置及设备在审

申请号：	201910935293.5	申请日：	2019-09-29
公开（公告）号：	CN110717189A	公开（公告）日：	2020-01-21
发明（设计）人：	袁锦程;许辽萨	申请（专利权）人：	支付宝(杭州)信息技术有限公司
主分类号：	G06F21/60	分类号：	G06F21/60;G06K9/62;G06N20/00
代理公司：	11415 北京博思佳知识产权代理有限公司	代理人：	彭路儿
地址：	310000 浙江省杭州市***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	数据泄露敏感数据训练数据集原始数据样本机器学习模型被监控对象相似度匹配原始数据集装置及设备标签指示电子设备监控对象设备使用标签
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种数据泄露识别方法，包括：

获取样本监控对象在使用电子设备过程中产生的样本设备使用数据，获得原始数据集；

通过特征工程提取所述原始数据集中数据的特征，获得训练数据集；其中，在进行特征工程中，所述原始数据集中数据的标签通过将该数据与敏感数据进行相似度匹配而确定，所述标签指示所述数据是否属于敏感数据，所述敏感数据为表征发生数据泄露的数据；

利用所述训练数据集对机器学习模型进行训练，获得数据泄露识别模型，所述数据泄露识别模型用于对被监控对象进行数据泄露识别。

2.根据权利要求1所述的方法，所述样本设备使用数据包括如下一种或多种：指示样本监控对象将电子设备本地文件传输至其他存储位置的数据、指示样本监控对象使用指定软件的数据。

3.根据权利要求1所述的方法，所述敏感数据是根据数据泄露事件的特征预先构建的。

4.根据权利要求1所述的方法，所述相似度匹配的方式包括如下一种或多种：

分别对所述原始数据集中数据和所述敏感数据提取词向量，利用提取的词向量对所述原始数据集中数据和所述敏感数据进行相似度匹配；

分别对所述原始数据集中数据和所述敏感数据进行独热编码，根据所述所述原始数据集中数据的编码以及所述敏感数据的编码进行相似度匹配。

5.根据权利要求1所述的方法，所述数据泄露识别模型有多个，所述数据泄露识别模型与业务场景相对应，所述数据泄露识别模型是利用属于所述业务场景的训练数据集训练得到。

6.根据权利要求1或5所述的方法，所述数据泄露识别模型包括有一通用数据泄露识别模型，训练所述通用数据泄露识别模型的训练数据集的特征是利用自动特征工具提取的。

7.一种数据泄露识别方法，包括：

获取被监控对象在使用电子设备过程中产生的设备使用数据；

获取所述设备使用数据的目标特征；

将所述设备使用数据的目标特征输入至数据泄露识别模型，利用所述数据泄露识别模型对被监控对象进行数据泄露识别；其中，所述数据泄露识别模型利用训练数据集训练得到，所述训练数据集通过特征工程提取预先获取的原始数据集中数据的特征而获得，所述原始数据集中数据的标签通过将该数据与敏感数据进行相似度匹配而确定，所述标签指示所述数据是否属于敏感数据，所述敏感数据为表征发生数据泄露的数据。

8.根据权利要求7所述的方法，所述敏感数据是根据数据泄露事件的特征预先构建的。

9.根据权利要求7所述的方法，所述数据泄露识别模型有多个，所述数据泄露识别模型与业务场景相对应，所述数据泄露识别模型是利用属于所述业务场景的训练数据集训练得到；

所述将所述设备使用数据的目标特征输入至数据泄露识别模型，包括：

根据所述设备使用数据所属的业务场景，将所述设备使用数据的目标特征输入至与其所属的业务场景相对应的数据泄露识别模型。

10.根据权利要求7或9所述的方法，所述数据泄露识别模型包括有一通用数据泄露识别模型，训练所述通用数据泄露识别模型的训练数据集的特征是利用自动特征工具提取的；

所述将所述设备使用数据的目标特征输入至数据泄露识别模型，包括：

将所述设备使用数据的目标特征输入至所述通用数据泄露识别模型。

11.根据权利要求9所述的方法，所述利用所述数据泄露识别模型对被监控对象进行数据泄露识别，包括：

根据所述与其所属的业务场景相对应的数据泄露识别模型的识别结果以及所述通用数据泄露识别模型的识别结果，对被监控对象进行数据泄露识别。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司，未经支付宝(杭州)信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】