[发明专利]一种基于关联规则的数据表分类系统与方法有效
申请号: | 201710575180.X | 申请日: | 2017-07-14 |
公开(公告)号: | CN107357902B | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 张小松;牛伟纳;宋珺 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2458;G06F16/28 |
代理公司: | 成都弘毅天承知识产权代理有限公司 51230 | 代理人: | 徐金琼;刘东 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 关联 规则 数据表 分类 系统 方法 | ||
本发明公开了一种基于关联规则的数据表分类系统与方法,属于数据表分类技术领域;人工收集若干训练集数据表,所述训练集数据表包含类别数据表,利用所述训练集数据表构造所述类别数据表的类别空间;根据所述类别空间,对所述训练集数据表进行预处理;对所述预处理后的训练集数据表进行关联规则分析,并对所述关联规则进行筛选,得到所述类别数据表的关联规则;对需要进行识别的数据表进行预处理,利用所述类别数据表的关联规则对预处理后的数据表进行匹配,得到所述需要进行识别的数据表的类别信息。利用数据表的内容对数据表进行分类,有效的提高了数据表分类的准确性。
技术领域
本发明涉及一种数据表分类系统与方法,特别是一种基于关联规则的数据表分类系统与方法,用于对数据表进行分类。
背景技术
近年来,随着社会信息化进程的不断推进,企业数据不仅在数量上呈现递增的趋势,且具有类别多样、变化频繁、环境复杂化等特点。企业数据大都被分散存放在内部网络的不同数据仓库中,其中不乏高值敏感数据,给数据规范化管理造成一定难度,如管理者对数据分布情况很难完整把控。然而,内部网络中数据的存储形式、分布状况、类型、敏感与否对于管理者而言是极为重要的。因为这些信息可以帮助他们发现潜在风险、及时应对相关法律法规的监管,并在资源有限的情况下有选择的对关键数据采取对应的保护措施。这些问题主要涉及对数据源进行分析。
为了使管理者对企业的数据类型有一个直观而完整的把握,需要对企业的数据进行分类,这样才能针对不同的数据类别进行管理。而由于人工分类、标记企业的所有数据费时费力,所以使用程序将数据进行分类是非常有价值的。这里所说的分类指的是在对数据表内容的类别未知的情况下,根据数据表包含哪些数据字段,将数据表类型加以区分,在企业环境中,大部分的企业数据存储在数据表中,无论是数据库还是Excel表格中,它们都是结构化的数据表,每个数据表都是以字段来存储每条记录的内容。
专利申请“用于访问源数据库中的一组数据表格的方法和系统”(申请号:201410444212.9)提供了一种对源数据库中的一组数据表格进行分类的方法。该方法提供了一组度量,该度量是关于数据表的元数据和性能数据,如读写速率、记录的数目、字段的数目、主键和外键的数目、触发器类型等;该方法提供了一组数据表类别,该类别是根据上述度量的不同而区别的;该方法根据上述数据表类别及度量方式,将源数据库中的一组数据表格进行分类。该方法的不足在于,分类的依据只有数据库的物理属性即上述度量,而不涉及数据库中存储的数据内容,这样的分类依据不能区分内容类别不同的数据表,对于数据表的分类而言价值不高;此外,分类的结果只有三种,这样的分类结果误差较高且令人困惑。
发明内容
基于以上技术问题,本发明提供了一种基于关联规则的数据表分类系统与方法,解决了目前分类方法的依据只有数据库的物理属性,不涉及数据库中的数据内容导致分类结果误差高的技术问题。
本发明采用的技术方案如下:
一种基于关联规则的数据表分类系统与方法,包括以下步骤:
步骤1:人工收集若干训练集数据表,所述训练集数据表包含类别数据表,利用所述训练集数据表构造所述类别数据表的类别空间;
步骤2:根据所述类别空间,对所述训练集数据表进行预处理;
步骤3:对所述预处理后的训练集数据表进行关联规则分析,并对所述关联规则进行筛选,得到所述类别数据表的关联规则;
步骤4:对需要进行识别的数据表进行预处理,利用所述类别数据表的关联规则对预处理后的数据表进行匹配,得到所述需要进行识别的数据表的类别信息。
进一步的,实现所述步骤1的结构包括:数据表信息读取单元、数据表信息数据库、类别空间构造单元、类别空间信息数据库;
数据表信息读取单元:用于读取数据表的字段信息和数据个数;
数据表信息数据库:用于存储数据表中的数据信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710575180.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:银行ATM机现金存款专用袋
- 下一篇:一种改进的自封袋