[发明专利]数据遗漏值的填补系统及方法无效
申请号: | 201010579932.8 | 申请日: | 2010-12-02 |
公开(公告)号: | CN102486790A | 公开(公告)日: | 2012-06-06 |
发明(设计)人: | 曾新穆;谢百恩;苏家辉;许芝华 | 申请(专利权)人: | 财团法人资讯工业策进会 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F19/28 |
代理公司: | 北京中原华和知识产权代理有限责任公司 11019 | 代理人: | 寿宁;张华辉 |
地址: | 中国台湾台北市大*** | 国省代码: | 中国台湾;71 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 遗漏 填补 系统 方法 | ||
1.一种数据遗漏值的填补系统,其特征在于包括:
一储存单元,其储存有一数据阵列,该数据阵列包括多个数据列以及多个数据栏,该等数据列包括多个完整数据列与多个缺值数据列,每一缺值数据列包括至少一未知数据;以及
一计算设备,其包括:
一分析程序;及
一处理器,用以读取并利用该分析程序分析该数据阵列,其中,该处理器从该等完整数据列找出各缺值数据列近似的至少一目标数据列,从其取出至少一已知数据以推算出一预估数据,以取代其个别对应的该等未知数据并作为多个待修正数据,再从该等待修正数据找出一特定待修正数据,以该特定待修正数据所在栏的数据变化趋势,从该等数据栏中选择数据变化趋势近似顺序的一第一指定数据栏与一第二指定数据栏,并依据该特定待修正数据所在列的数据,以相同数据为同群方式找出一数据列群组,再依据该数据列群组与该第二指定数据栏的栏组合,以相同数据为同群方式划分该等数据列为多个子群组,并其中找出数据匹配该数据列群组的至少一目标群组,以利用其对应该特定待修正数据栏的数据推算出一填补数据以填入该特定待修正数据栏,再判断该特定待修正数据所在列是否有其他待修正数据,以决定是否指定另一特定待修正数据。
2.如权利要求1所述的数据遗漏值的填补系统,其特征在于该处理器是建立每一完整数据列的一完整数据曲线,建立每一缺值数据列的一缺值数据曲线,并比对每一缺值数据曲线与该等完整数据曲线的相似度,以从该等完整数据曲线找出每一缺值数据曲线对应的至少一近似目标数据曲线;以及依据该等缺值数据曲线与各该目标数据曲线的匹对,找出每一缺值数据列近似的至少一最近似目标数据列。
3.如权利要求1所述的数据遗漏值的填补系统,其特征在于该处理器是判断该子群组中一特定群组的数据列,与该数据列群组中的数据列任一相符时,判断该特定群组为该目标群组,再指定待修正数据栏为指定数据栏。
4.如权利要求1所述的数据遗漏值的填补系统,其特征在于该等数据列的数据为数值型数据,该填补数据为该至少一目标群组的该指定数据栏中的数值的平均数。
5.如权利要求1所述的数据遗漏值的填补系统,其特征在于该等数据列的数据为类别型数据,该预估数据为其预填入的未知数据栏所属该缺值数据栏,其对应的该至少一目标数据列的该至少一已知数据中的数据。
6.一种数据遗漏值的填补方法,适用于一数据阵列,该数据阵列包括多个数据列以及多个数据栏,其特征在于该方法包括:
从该数据阵列中找出多个完整数据列与多个缺值数据列,每一缺值数据列包括至少一未知数据;
从该等完整数据列中分别为每一缺值数据列取出近似的至少一目标数据列;
依据每一未知数据于所属该缺值数据列的栏位置,从该缺值数据列对应的该至少一目标数据列取得至少一已知数据,并利用该至少一已知数据推算出一预估数据;
将该等预估数据取代其个别对应的该等未知数据,以作为多个待修正数据;
从该等待修正数据中指定一特定待修正数据,该特定待修正数据所在列为一修正数据列;
依据该特定待修正数据所在栏的数据变化趋势,从该等数据栏中选择数据变化趋势近似的一第一指定数据栏,并依据该特定待修正数据所在列的数据,以相同数据为同群方式找出一数据列群组;
从该等数据栏中选择与该特定待修正数据所在栏数据变化趋势第二近似的一第二指定数据栏,依据该特定待修正数据所在栏与第二指定数据栏的栏组合,依该组合以相同数据为同群方式划分该等数据列为多个子群组;
从该等子群组找出数据匹配该数据列群组的少一目标群组,以利用该至少一目标群组对应该特定待修正数据栏的数据推算出一填补数据以填入该特定待修正数据之栏;以及
判断该特定待修正数据所在列是否有其他待修正数据,以决定是否指定另一特定待修正数据。
7.如权利要求6所述的数据遗漏值的填补方法,其特征在于从该等完整数据列中分别为取出每一缺值数据列取出近似的至少一目标数据列的该步骤包括:
建立每一完整数据列一完整数据曲线;
建立每一缺值数据列一缺值数据曲线:
比对每一缺值数据曲线与该等完整数据曲线的相似度,以从该等完整数据曲线找出每一缺值数据曲线对应的至少一近似目标数据曲线;以及
依据该等缺值数据曲线与各该目标数据曲线的匹对,找出每一缺值数据列近似的至少一最近似目标数据列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于财团法人资讯工业策进会,未经财团法人资讯工业策进会许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010579932.8/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置