[发明专利]一种在文本大数据中发现敏感数据的方法在审

专利信息
申请号: 201711399063.9 申请日: 2017-12-22
公开(公告)号: CN108280130A 公开(公告)日: 2018-07-13
发明(设计)人: 杨永刚;张锋军;李庆华;牛作元 申请(专利权)人: 中国电子科技集团公司第三十研究所
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 成都九鼎天元知识产权代理有限公司 51214 代理人: 邓世燕
地址: 610000 *** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 敏感词 检索文本 敏感信息 敏感度 文本 敏感词语 敏感数据 信息库 大数据 检索树 发现 预处理 快速精准 模糊检索 权重级别 文本提供 文档类别 字符串流 规范化 潜在的 异构 预设 检索 查找 敏感 统计
【说明书】:

发明公开了一种在文本大数据中发现敏感数据的方法,包括如下步骤:建立敏感词信息库;对敏感词信息库中的所有敏感词建立敏感词语检索树;将经过预处理的文本以字符串流的形式通过检索树进行敏感词检索发现,同时统计每个敏感词的出现频率;利用敏感词的出现频率、文档类别和敏感词语的权重级别计算待检索文本的敏感度;将待检索文本的敏感度与预设的阀值进行比较,将敏感度值超过阀值的检索文本确定为敏感类文本。本发明能够为海量异构文本提供快速发现规范化和非规范化描述的敏感信息的方法,实现敏感信息的快速精准查找和模糊检索相结合的方式实现潜在的敏感信息的快速发现。

技术领域

本发明涉及一种在文本大数据中发现敏感数据的方法。

背景技术

在海量、异构、多义数据中准确快速的发现敏感隐私数据,满足在大数据环境中进行数据共享交换、数据发布和数据安全使用的需求,并为数据的访问控制提供依据。目前,用于在文本中发现敏感信息的方法主要有:关键词快速匹配算法,本体语义检索、基于数据挖掘等方式。其中,基于模式匹配的敏感信息发现技术是目前的主要技术手段。敏感数据发现技术大量的应用于信息过滤、数据交换共享和安全邮件、系统审计、数据交换、新闻公告等方面。

(1)方法一:内容关键词匹配法

该方法主要以关键词对比和匹配为核心,构建敏感信息词语仓库,在仓库预定义好敏感关键词等数据信息。当对某个文本资料进行敏感信息检测时,通过匹配算法(如BM算法、QS算法等)对文本资料进行检测,如果发现文本中存在仓库中的敏感词时,即判定文本中存在敏感隐私信息。该方法实现简单,但缺点也较为明显,该检测方式是精确匹配,只有当待检测的文本中存在和仓库中预定义的词完全匹配时才能发现敏感信息。否则将不能检测到敏感词信息,例如在关键词中插入无效单词、空格、甚至对字进行拆分,将会很难用该方法发现敏感词。举例:有些经过变形后的敏感词语信息表述很难通过关键词匹配发现,但是并不影响敏感信息的阅读和传播。

(2)方法二:语义检索

该方法是通过计算机利用语义知识库实现语句处理,挖掘出敏感词字面之间的潜在语义,从而实现对敏感词的监测和发现。实现语义检索的关键是语义空间的建立和检索语义的提取。一般的语义检索扩展技术有:基于数据库、语义树和语义词典等方式实现。这种方式在一定程度上提高了敏感信息检索的效率,但是存在如下问题:缺乏统一、规范的知识表示;缺乏明确的知识约束;没有挖掘出知识间存在的深层隐性关系;缺乏统一的输出形式,无法较好实现知识的共享和重用。

(3)方法三:关联规则的分析方法

该方法是通过数据挖掘技术挖掘词语之间的关联关系,找出敏感词语之间的内在关联关系,从而发现敏感隐私信息。该方法最主要的两个指标是数据之间的支持度和信任度。这种方法实现的难度也相对较为简单,但是如何高效的确定大量数据集是解决关联规则问题的重点和难点。

发明内容

为了克服现有技术的上述缺点,本发明提供了一种在文本大数据中发现敏感数据的方法,旨在解决如下技术问题:

(1)解决传统方法中发现敏感数据或者检测经过人工干扰后的形成的敏感信息困难的问题,本发明方法能有效发现异构文本大数据集合中潜在的敏感隐私信息;

(2)提高不同文本数据中敏感信息发现的准确率问题;

(3)提高异构文本大数据中敏感信息发现的效率问题;

(4)为数据的共享交换、审查发布和应用展示提供可靠的内容审查方法。

本发明解决其技术问题所采用的技术方案是:一种在文本大数据中发现敏感数据的方法,包括如下步骤:

步骤一、建立敏感词信息库:敏感词信息库中的每条记录包括敏感词描述和扩展信息;利用敏感词的不规范描述词语构建变异词库并进行索引归类;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第三十研究所,未经中国电子科技集团公司第三十研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711399063.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top