[发明专利]一种基于人工智能的敏感数据自动分类识别方法及系统有效
申请号: | 201911155467.2 | 申请日: | 2019-11-22 |
公开(公告)号: | CN110909224B | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 马新强;刘勇;杨建党;刘丽娜;钟保权;黄羿 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F16/906 | 分类号: | G06F16/906;G06F21/62 |
代理公司: | 浙江千克知识产权代理有限公司 33246 | 代理人: | 裴金华 |
地址: | 310013 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 人工智能 敏感数据 自动 分类 识别 方法 系统 | ||
1.一种基于人工智能的敏感数据自动分类识别方法,其特征在于,包括以下步骤:
S1:获取数据训练集;
S2:使用数据训练集用敏感数据自动分类模型训练,分类建立敏感数据集;
S3:使用分类建立好的敏感数据集,使用自然语言处理的敏感数据识别模型对具体敏感数据进行识别;
S4:获取测试数据并输入至所述敏感数据自动分类模型,对敏感数据进行分类,再输入敏感数据识别模型,生成特征识别结果;
执行步骤S2具体包括:
S21:设置分类学习模型结构为两种模型,包含决策树和支持向量机模型:
决策树模型,根据训练数据集,从根结点开始,根据基尼指数最小的特征,递归地对每个结点进行CART决策树生成算法操作,构建二叉决策树,对决策树进行剪枝,得到用于分类的最优子树;
支持向量机模型,对有N个数据的训练数据集,选取适当的核函数K(x,z)和适当的参数C,构造并求解最优化问题:
0≤αi≤C,i=1,2,...,N
求得最优解再构造决策函数,得到用于分类的支持向量机;
S22:界定安全标,包括:系统运行安全、交易安全、经营安全、个人账户安全和个人信息安全;
S23:安全子目标分解,达到对安全标的影响分析,需要对安全保障目标进行安全要素分解,分解成能够跟信息系统中的数据项对应的安全子标;
S24:影响因素分析,针对上述安全标的每一安全子目标,分析其影响因素,影响因素匹配到信息系统中的数据项,即数据项集合,同时,对于影响到多个安全子目标的数据项,列为重点敏感数据项;
S25:敏感数据分类确认,对多个安全子目标的影响因素分解结果对应的系统数据项和数据项集合,根据敏感性从高到低进行排序,并确认为敏感数据项,对分类好的敏感数据建立敏感数据集,用于后续具体敏感数据的识别。
2.根据权利要求1所述的一种基于人工智能的敏感数据自动分类识别方法,其特征在于:
执行步骤S1具体包括:
S11:获取相关企业及政府部门的各类数据;
S12:清洗所有数据,获得所需数据;
S13:将所需数据整理为训练数据集。
3.根据权利要求1所述的一种基于人工智能的敏感数据自动分类识别方法,其特征在于:执行步骤S3具体包括:
S31:设置敏感数据识别学习模型结构为双向长短期记忆网络(Bi-LSTM)和条件随机场(CRF)结合,Bi-LSTM设置为双向学习序列关联关系,捕捉序列之间的依赖关系,CRF定义一个特征函数集,该函数集内的每个特征函数以标注序列作为输入,提取的特征作为输出;
S32:读取步骤S25获得的敏感数据所属的种类,使用识别学习模型分析内部结构;
S33:向识别模型输入分类好的数据集,对敏感数据进行识别,输出识别好的敏感数据。
4.根据权利要求1所述的一种基于人工智能的敏感数据自动分类识别方法,其特征在于:执行步骤S4具体包括:
S41:将所述测试数据进行预处理,生成能够用于训练的数据;
S42:将所述测试数据输入分类学习模型,确定敏感数据及其分类;
S43:将所述测试数据按类别输入敏感数据识别模型,对敏感数据进行识别;
S44:输出测试数据的特征识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911155467.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:无人机巡检系统与巡检方法
- 下一篇:共享编码器生成方法、装置及电子设备