[发明专利]数据库清洗系统及方法无效
申请号: | 200710200494.8 | 申请日: | 2007-04-20 |
公开(公告)号: | CN101290622A | 公开(公告)日: | 2008-10-22 |
发明(设计)人: | 闫浩 | 申请(专利权)人: | 鸿富锦精密工业(深圳)有限公司;鸿海精密工业股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518109广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据库 清洗 系统 方法 | ||
1.一种数据库清洗系统,包括主机及数据库,所述数据库中存储有数据及该数据的属性,所述数据属性包括数据的编码格式、字符格式及字符长短,其特征在于,所述主机设置有数据转换字典,用于定义脏数据及所述脏数据的修改规则,该主机还包括:
数据读取模块,用于访问所述数据库,获取所述数据库的属性,从数据库中读取一行数据,并获取该行数据的属性;
编码格式变更模块,用于在所述数据读取模块读取的数据的编码格式不符合设定标准时,将该数据的编码格式变更为标准的编码格式;
脏数据修改模块,用于在所述数据读取模块读取的数据含有脏数据时,根据所述数据转换字典的设置,按照所述脏数据的修改规则,将所述数据中的脏数据修改为对应的新数据;及
数据标准化模块,用于对所述数据读取模块读取的数据进行标准化处理,将经过标准化处理后的新数据导入所述数据库中。
2.如权利要求1所述的数据库清洗系统,其特征在于,所述脏数据是所述数据库中存储的不完整、错误的数据。
3.如权利要求2所述的数据库清洗系统,其特征在于,所述修改规则是一种将所述脏数据转换成正确的新数据的哈希函数。
4.如权利要求1所述的数据库清洗系统,其特征在于,所述标准化处理是指将数据的字符格式及范围变更为标准的字符格式和范围。
5.一种数据库清洗方法,其特征在于,该方法包括如下步骤:
设置数据转换字典,定义数据库中的脏数据及所述脏数据的修改规则;
访问所述数据库,获取所述数据库的属性,从数据库中读取一行数据,并获取该行数据的属性,所述数据属性包括数据的编码格式、字符格式及字符长短;
若所述读取的数据的编码格式不符合设定标准,则将该数据的编码格式变更为标准的编码格式;
若所述读取的数据含有脏数据,则根据所述数据转换字典的设置,按照所述脏数据的修改规则,将所述数据中的脏数据修改为对应的新数据;
对所述读取的数据进行标准化处理,将经过标准化处理后的新数据导入所述数据库中;
重复所述读取数据、变更数据编码格式、修改脏数据及数据标准化的步骤,直到所述数据库中的所有数据处理完毕。
6.如权利要求5所述的数据库清洗方法,其特征在于,所述脏数据是所述数据库中存储的不完整、错误的数据。
7.如权利要求6所述的数据库清洗方法,其特征在于,所述修改规则是一种将所述脏数据转换成正确的新数据的哈希函数。
8.如权利要求5所述的数据库清洗方法,其特征在于,所述步骤对所述读取的数据进行标准化处理是指将所述读取的数据的字符格式及范围变更为标准的字符格式和范围。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鸿富锦精密工业(深圳)有限公司;鸿海精密工业股份有限公司,未经鸿富锦精密工业(深圳)有限公司;鸿海精密工业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710200494.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于纤维涂层的非活性添加剂
- 下一篇:液晶显示装置及电子设备