[发明专利]基于用户偏好的数据清洗方法无效
申请号: | 200910167659.5 | 申请日: | 2009-09-17 |
公开(公告)号: | CN101706791A | 公开(公告)日: | 2010-05-12 |
发明(设计)人: | 唐雪飞;佘堃;陈科;汪海良 | 申请(专利权)人: | 成都康赛电子科大信息技术有限责任公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06N3/02;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610054 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 用户 偏好 数据 清洗 方法 | ||
所属技术领域
本发明涉及基于用户偏好的数据清洗方法,特别是在用户数据分类较多,数据量庞大的情况。
背景技术
目前的数据清洗方法大多是针对某类特定应用域的数据清洗,在设计模式和使用方式等方面都是以“数据”为中心,忽略了“用户”这个真正的核心,这些方法虽然能够根据发现的错误模式,编制程序或借助于外部标准源文件、数据字典等手段,在一定程度上修正错误;但经常须编制复杂的程序或借助于人工干预完成;而且这一系列工作都是针对某一特定行业开发的,没有通用性。
发明内容
为了克服现有的数据清洗方法不能有效地区分用户专有数据的不足,本实用新型提供一种数据清洗方法,该数据清洗方法可以自动学习用户偏好,从而识别用户数据采用最优数据定位预测的数据分析方法,高效、准确地识别“脏数据”并进行标记。数据清洗服务剔除系统“脏数据”和错误数据,并通过底层硬件接口对外接口输入干净的数据。
技术方案
基于用户偏好的数据清洗将数据处理的核心对象从“数据”转为“用户”,采用神经网络算法对用户行为进行学习和记忆;同时采用先进的中间件技术,完成数据清洗操作。
1.采用K-means模糊聚类分析神经网络方法,采用半监督学习算法,对用户行为进行自动学习与记忆,同时对大量不确定的信息进行深度自适应性学习训练,从而达到对未知语义的自适应分类、聚类、识别,以及对已知语义的透明操作,使系统自动对用户偏好数据区进行识别和标记,实现智能化用户偏好定义功能。
2.在数据交换层,利用XML的平台独立性和系统可扩展性,在数据处理过程中,对中间数据进行XML解析、标记与存储,同时对特定用户偏好相关的敏感数据标签进行加密和签名,从而彻底保障数据的完整性和安全性。
3.通过不同的过滤处理元实现术语模型、过程描述文件、共享库等概念,利用XML实现各个过滤处理元的高度独立性和系统的可扩展性,很好地弥补了现有数据清洗和灾备产品中不具有互操作性的缺点,向用户提供了一个可视化的流程定义环境。
本发明的有益效果是,在数据清洗过程中始终以用户数据为核心,达到“以人为本”的数据清洗效果。
附图说明
图1系统整体架构
图2基于K-means算法的一组对象的聚类
图3用户偏好学习与标记流程
图4基于用户偏好的数据清洗系统流程
图5最优数据定位预测的K步模糊神经网络自动机模型
图6过滤服务元结构
图7XML管道过滤处理架构
具体实施方式
系统架构如图1如示。
1.用户偏好学习与标记系统
用户偏好学习与标记系统采用K-means模糊聚类分析神经网络算法实现对用户行为的学习与记忆,采用大量用户行为数据作为样本数据进行训练,完成用户偏好的识别,并对偏好数据进行标记。
K-means算法属于聚类分析的一种,就是将一组物理的或抽象的对象,根据它们之间的相似程度,分为若干组;其中相似的对象构成一组,这一过程就称为聚类过程。也就是从给定的数据集中搜索数据项之间所存在的有价值联系。在许多应用中,一个聚类中所有对象常常被当作一个对象来进行处理或分析:
(1)输入:聚类个数k,以及包含n个数据对象的数据库;
(2)输出:满足方差最小标准的k个聚类;
(3)处理流程:从n个数据对象任意选择k个对象作为初始聚类中心;根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离,并根据最小距离重新对相应对象进行划分;重新计算每个(有变化)聚类的均值(中心对象);循环到直到每个聚类不再发生变化为止。
K-means算法接受输入量k;然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高,而不同聚类中的对象相似度较小,聚类相似度是利用各聚类中对象的均值所获得一个/中心对象0(引力中心)来进行计算的。
K-means算法的工作过程说明如下:首先从n个数据对象任意选择k个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都康赛电子科大信息技术有限责任公司,未经成都康赛电子科大信息技术有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910167659.5/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置