[发明专利]一种基于人工智能的敏感数据自动分类识别方法及系统有效
申请号: | 201911155467.2 | 申请日: | 2019-11-22 |
公开(公告)号: | CN110909224B | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 马新强;刘勇;杨建党;刘丽娜;钟保权;黄羿 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F16/906 | 分类号: | G06F16/906;G06F21/62 |
代理公司: | 浙江千克知识产权代理有限公司 33246 | 代理人: | 裴金华 |
地址: | 310013 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 人工智能 敏感数据 自动 分类 识别 方法 系统 | ||
本发明提供一种基于人工智能的敏感数据自动分类识别方法及系统,涉及数据安全技术领域,其中一种基于人工智能的敏感数据自动分类识别方法,包括以下步骤:S1:获取数据训练集;S2:分类建立敏感数据集;S3:对具体敏感数据进行识别;S4:获取测试数据并输入至所述敏感数据自动分类模型,对敏感数据进行分类,再输入敏感数据识别模型,生成特征识别结果。本发明一种基于人工智能的敏感数据自动分类识别方法及系统将人工智能技术应用于敏感数据和关联关系识别阶段,有效解决传统正则方式性能与准确性不可兼得的痛点,并且也可省去专业人员对于正则识别规则的维护,真正达到免配置和自动功能的实现,为用户带来价值提升。
技术领域
本发明涉及数据安全技术领域,
尤其是,本发明涉及一种基于人工智能的敏感数据自动分类识别方法及系统。
背景技术
随着大数据时代的到来,数据中蕴藏的巨大价值得以挖掘,同时也带来了隐私信息与关键性敏感数据保护方面的困难。如何在实现数据高效共享的同时,保护敏感信息不被泄露,已成为数据安全智能开发的关键环节。首先就是如何识别敏感数据,敏感数据的定义是什么,有哪些依赖,应用程序是十分复杂并且完整的。知道敏感信息在哪,并且知道哪些数据参考了这些敏感数据是非常困难的。现有两种方式来识别敏感数据。第一种是通过人工指定,比如通过正则来指定敏感数据的格式;第二种方式就是自动识别。比如基于数据特征学习和自然语言处理等技术进行敏感数据识别的自动识别方案。敏感信息字段的名称、敏感级别、字段类型、字段长度、赋值规范等内容,在这一过程中明确,用于脱敏策略制定的依据。
当前国内外数据安全解决方案提供商的研究主要集中在以下两点:一是敏感数据智能准确识别技术;二是数据脱敏算法与规则的优化。目前国内外还没有能提供成熟完善的敏感数据智能准确分类和识别的解决方案。随着人工智能技术的不断发展,同样需要顺应信息化到智能化发展的需要,开展各种智能识别、数据安全智能技术的研发工作。
所以,如何设计一种基于人工智能的敏感数据自动分类识别方法或者系统,成为我们当前急需要解决的问题。
发明内容
本发明的目的在于提供一种简单实用,将人工智能技术应用于敏感数据和关联关系识别阶段,有效解决传统正则方式性能与准确性不可兼得的痛点,并且也可省去专业人员对于正则识别规则的维护,真正达到免配置和自动功能的实现,为用户带来价值提升的基于人工智能的敏感数据自动分类识别方法。
为达到上述目的,本发明采用如下技术方案得以实现的:
一种基于人工智能的敏感数据自动分类识别方法,该方法包括以下步骤:
S1:获取数据训练集;
S2:使用数据训练集用敏感数据自动分类模型训练,分类建立敏感数据集;
S3:使用分类建立好的敏感数据集,使用自然语言处理的敏感数据识别模型对具体敏感数据进行识别;
S4:获取测试数据并输入至所述敏感数据自动分类模型,对敏感数据进行分类,再输入敏感数据识别模型,生成特征识别结果。
作为本发明的优选,执行步骤S1具体包括:
S11:获取相关企业及政府部分的各类数据;
S12:清洗所有数据,获得所需数据;
S13:将所需数据整理为训练数据集。
作为本发明的优选,执行步骤S2具体包括:
S21:设置分类学习模型结构为两种模型,包含决策树和支持向量机模型:
决策树模型,根据训练数据集,从根结点开始,根据基尼指数最小的特征,递归地对每个结点进行CART决策树生成算法操作,构建二叉决策树,对决策树进行剪枝,得到用于分类的最优子树;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911155467.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:无人机巡检系统与巡检方法
- 下一篇:共享编码器生成方法、装置及电子设备