[发明专利]一种基于人工智能的敏感数据自动识别方法在审
申请号: | 201910859914.6 | 申请日: | 2019-09-11 |
公开(公告)号: | CN110580416A | 公开(公告)日: | 2019-12-17 |
发明(设计)人: | 黄红兵;吴惠芬;龚小刚;章毅;叶卫;周升;沈志豪;张景明;裴旭斌;谢若承;方舟;郭亚琼;陈超;许敏;陈逍潇 | 申请(专利权)人: | 国网浙江省电力有限公司信息通信分公司 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06F17/27 |
代理公司: | 33246 浙江千克知识产权代理有限公司 | 代理人: | 裴金华 |
地址: | 310012 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 敏感数据 转入 文本 匹配 信息安全领域 非敏感数据 计算机技术 敏感关键词 正则表达式 人工智能 准确度 基于条件 快速识别 自动识别 综合性能 常规的 返回 机场 | ||
本发明的一种基于人工智能的敏感数据自动识别方法,涉及计算机技术与信息安全领域,包括如下步骤:S1、提取需要进行敏感数据识别的文本;S2、将文本与人工定义敏感关键词进行匹配,若符合,转入步骤S5;若不符合,转入步骤S3;S3、将文本与正则表达式进行匹配,若符合,转入步骤S5;若不符合,转入步骤S4;S4、采用基于条件随机场的敏感数据识别方式对文本进行识别,若识别为敏感数据,转入步骤S5;若识别为非敏感数据,转入步骤S6;S5、返回文本包含的敏感数据类型;S6、敏感数据识别结束。本发明能够快速识别常规的敏感数据,同时能够准确的识别地址和人名等数据,具有较高敏感数据识别的准确度和效率的综合性能。
技术领域
本发明涉及计算机技术与信息安全领域,并且更具体地,涉及一种基于人工智能的敏感数据自动识别方法。
背景技术
随着数据时代的到来,数据中蕴藏的巨大价值得以挖掘,同时也带来了隐私信息与关键性敏感数据保护方面的困难。如何在实现数据高效共享的同时,保护敏感信息不被泄露,已成为数据安全智能开发的关键环节。要实现对敏感信息的保护,首先要求能够准确识别出数据中的敏感数据。传统的敏感数据发现方式一般都是通过人工配置和正则表达式匹配来实现的,但是很多数据是用户自己填写的,由于信息录入的不规范性和汉语语言特点,如对于地址和人名等数据,传统的识别方式效果往往不理想。
发明内容
本发明目的就是为了弥补现有技术存在的缺陷,提供一种基于人工智能的敏感数据自动识别方法,提高敏感数据识别的准确度和效率。
本发明技术方案如下:一种基于人工智能的敏感数据自动识别方法,其特征在于,包括如下步骤:
S1、提取需要进行敏感数据识别的文本;
S2、将所述文本与人工定义敏感关键词进行匹配,若符合,转入步骤S5;若不符合,转入步骤S3;
S3、将所述文本与正则表达式进行匹配,若符合,转入步骤S5;若不符合,转入步骤S4;
S4、采用基于条件随机场的敏感数据识别方式对所述文本进行识别,若识别为敏感数据,转入步骤S5;若识别为非敏感数据,转入步骤S6;
S5、返回文本包含的敏感数据类型;
S6、敏感数据识别结束。
进一步,在步骤S3与S4之间,还包括步骤S31:采用基于元数据自学习的敏感数据识别方式对所述文本进行识别,若识别为敏感数据,转入步骤S5;若识别为非敏感数据,转入步骤S6。
进一步,采用基于元数据自学习的敏感数据识别方式对所述文本进行识别包括如下步骤:
S311、获取所述文本的元数据信息,同时进行元数据信息自学习;
S312、依据元数据信息识别所述文本。
进一步,在步骤S4与S5之间,还包括步骤S41:采用基于知识库的智能敏感数据识别方式对所述文本进行识别,若识别为敏感数据,转入步骤S5;若识别为非敏感数据,转入步骤S6。
进一步,采用基于知识库的智能敏感数据识别方式对所述文本进行识别包括如下步骤:
S411、分析不同敏感类型的特征,根据不同敏感类型特征构建敏感类型知识库;
S412、根据敏感类型知识库的信息识别所述文本。
进一步,实时监控敏感类型知识库与元数据的变化,当检测到变化时,重新加载敏感类型知识库与元数据信息。
本发明的有益效果在于:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网浙江省电力有限公司信息通信分公司,未经国网浙江省电力有限公司信息通信分公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910859914.6/2.html,转载请声明来源钻瓜专利网。