[发明专利]一种基于关联规则的数据表分类系统与方法有效

专利信息
申请号: 201710575180.X 申请日: 2017-07-14
公开(公告)号: CN107357902B 公开(公告)日: 2021-05-28
发明(设计)人: 张小松;牛伟纳;宋珺 申请(专利权)人: 电子科技大学
主分类号: G06F16/22 分类号: G06F16/22;G06F16/2458;G06F16/28
代理公司: 成都弘毅天承知识产权代理有限公司 51230 代理人: 徐金琼;刘东
地址: 611731 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 关联 规则 数据表 分类 系统 方法
【说明书】:

本发明公开了一种基于关联规则的数据表分类系统与方法,属于数据表分类技术领域;人工收集若干训练集数据表,所述训练集数据表包含类别数据表,利用所述训练集数据表构造所述类别数据表的类别空间;根据所述类别空间,对所述训练集数据表进行预处理;对所述预处理后的训练集数据表进行关联规则分析,并对所述关联规则进行筛选,得到所述类别数据表的关联规则;对需要进行识别的数据表进行预处理,利用所述类别数据表的关联规则对预处理后的数据表进行匹配,得到所述需要进行识别的数据表的类别信息。利用数据表的内容对数据表进行分类,有效的提高了数据表分类的准确性。

技术领域

本发明涉及一种数据表分类系统与方法,特别是一种基于关联规则的数据表分类系统与方法,用于对数据表进行分类。

背景技术

近年来,随着社会信息化进程的不断推进,企业数据不仅在数量上呈现递增的趋势,且具有类别多样、变化频繁、环境复杂化等特点。企业数据大都被分散存放在内部网络的不同数据仓库中,其中不乏高值敏感数据,给数据规范化管理造成一定难度,如管理者对数据分布情况很难完整把控。然而,内部网络中数据的存储形式、分布状况、类型、敏感与否对于管理者而言是极为重要的。因为这些信息可以帮助他们发现潜在风险、及时应对相关法律法规的监管,并在资源有限的情况下有选择的对关键数据采取对应的保护措施。这些问题主要涉及对数据源进行分析。

为了使管理者对企业的数据类型有一个直观而完整的把握,需要对企业的数据进行分类,这样才能针对不同的数据类别进行管理。而由于人工分类、标记企业的所有数据费时费力,所以使用程序将数据进行分类是非常有价值的。这里所说的分类指的是在对数据表内容的类别未知的情况下,根据数据表包含哪些数据字段,将数据表类型加以区分,在企业环境中,大部分的企业数据存储在数据表中,无论是数据库还是Excel表格中,它们都是结构化的数据表,每个数据表都是以字段来存储每条记录的内容。

专利申请“用于访问源数据库中的一组数据表格的方法和系统”(申请号:201410444212.9)提供了一种对源数据库中的一组数据表格进行分类的方法。该方法提供了一组度量,该度量是关于数据表的元数据和性能数据,如读写速率、记录的数目、字段的数目、主键和外键的数目、触发器类型等;该方法提供了一组数据表类别,该类别是根据上述度量的不同而区别的;该方法根据上述数据表类别及度量方式,将源数据库中的一组数据表格进行分类。该方法的不足在于,分类的依据只有数据库的物理属性即上述度量,而不涉及数据库中存储的数据内容,这样的分类依据不能区分内容类别不同的数据表,对于数据表的分类而言价值不高;此外,分类的结果只有三种,这样的分类结果误差较高且令人困惑。

发明内容

基于以上技术问题,本发明提供了一种基于关联规则的数据表分类系统与方法,解决了目前分类方法的依据只有数据库的物理属性,不涉及数据库中的数据内容导致分类结果误差高的技术问题。

本发明采用的技术方案如下:

一种基于关联规则的数据表分类系统与方法,包括以下步骤:

步骤1:人工收集若干训练集数据表,所述训练集数据表包含类别数据表,利用所述训练集数据表构造所述类别数据表的类别空间;

步骤2:根据所述类别空间,对所述训练集数据表进行预处理;

步骤3:对所述预处理后的训练集数据表进行关联规则分析,并对所述关联规则进行筛选,得到所述类别数据表的关联规则;

步骤4:对需要进行识别的数据表进行预处理,利用所述类别数据表的关联规则对预处理后的数据表进行匹配,得到所述需要进行识别的数据表的类别信息。

进一步的,实现所述步骤1的结构包括:数据表信息读取单元、数据表信息数据库、类别空间构造单元、类别空间信息数据库;

数据表信息读取单元:用于读取数据表的字段信息和数据个数;

数据表信息数据库:用于存储数据表中的数据信息;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710575180.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top