[发明专利]基于用户偏好的数据清洗方法无效

专利信息
申请号: 200910167659.5 申请日: 2009-09-17
公开(公告)号: CN101706791A 公开(公告)日: 2010-05-12
发明(设计)人: 唐雪飞;佘堃;陈科;汪海良 申请(专利权)人: 成都康赛电子科大信息技术有限责任公司
主分类号: G06F17/30 分类号: G06F17/30;G06N3/02;G06N3/08
代理公司: 暂无信息 代理人: 暂无信息
地址: 610054 四*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 用户 偏好 数据 清洗 方法
【说明书】:

所属技术领域

发明涉及基于用户偏好的数据清洗方法,特别是在用户数据分类较多,数据量庞大的情况。

背景技术

目前的数据清洗方法大多是针对某类特定应用域的数据清洗,在设计模式和使用方式等方面都是以“数据”为中心,忽略了“用户”这个真正的核心,这些方法虽然能够根据发现的错误模式,编制程序或借助于外部标准源文件、数据字典等手段,在一定程度上修正错误;但经常须编制复杂的程序或借助于人工干预完成;而且这一系列工作都是针对某一特定行业开发的,没有通用性。

发明内容

为了克服现有的数据清洗方法不能有效地区分用户专有数据的不足,本实用新型提供一种数据清洗方法,该数据清洗方法可以自动学习用户偏好,从而识别用户数据采用最优数据定位预测的数据分析方法,高效、准确地识别“脏数据”并进行标记。数据清洗服务剔除系统“脏数据”和错误数据,并通过底层硬件接口对外接口输入干净的数据。

技术方案

基于用户偏好的数据清洗将数据处理的核心对象从“数据”转为“用户”,采用神经网络算法对用户行为进行学习和记忆;同时采用先进的中间件技术,完成数据清洗操作。

1.采用K-means模糊聚类分析神经网络方法,采用半监督学习算法,对用户行为进行自动学习与记忆,同时对大量不确定的信息进行深度自适应性学习训练,从而达到对未知语义的自适应分类、聚类、识别,以及对已知语义的透明操作,使系统自动对用户偏好数据区进行识别和标记,实现智能化用户偏好定义功能。

2.在数据交换层,利用XML的平台独立性和系统可扩展性,在数据处理过程中,对中间数据进行XML解析、标记与存储,同时对特定用户偏好相关的敏感数据标签进行加密和签名,从而彻底保障数据的完整性和安全性。

3.通过不同的过滤处理元实现术语模型、过程描述文件、共享库等概念,利用XML实现各个过滤处理元的高度独立性和系统的可扩展性,很好地弥补了现有数据清洗和灾备产品中不具有互操作性的缺点,向用户提供了一个可视化的流程定义环境。

本发明的有益效果是,在数据清洗过程中始终以用户数据为核心,达到“以人为本”的数据清洗效果。

附图说明

图1系统整体架构

图2基于K-means算法的一组对象的聚类

图3用户偏好学习与标记流程

图4基于用户偏好的数据清洗系统流程

图5最优数据定位预测的K步模糊神经网络自动机模型

图6过滤服务元结构

图7XML管道过滤处理架构

具体实施方式

系统架构如图1如示。

1.用户偏好学习与标记系统

用户偏好学习与标记系统采用K-means模糊聚类分析神经网络算法实现对用户行为的学习与记忆,采用大量用户行为数据作为样本数据进行训练,完成用户偏好的识别,并对偏好数据进行标记。

K-means算法属于聚类分析的一种,就是将一组物理的或抽象的对象,根据它们之间的相似程度,分为若干组;其中相似的对象构成一组,这一过程就称为聚类过程。也就是从给定的数据集中搜索数据项之间所存在的有价值联系。在许多应用中,一个聚类中所有对象常常被当作一个对象来进行处理或分析:

(1)输入:聚类个数k,以及包含n个数据对象的数据库;

(2)输出:满足方差最小标准的k个聚类;

(3)处理流程:从n个数据对象任意选择k个对象作为初始聚类中心;根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离,并根据最小距离重新对相应对象进行划分;重新计算每个(有变化)聚类的均值(中心对象);循环到直到每个聚类不再发生变化为止。

K-means算法接受输入量k;然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高,而不同聚类中的对象相似度较小,聚类相似度是利用各聚类中对象的均值所获得一个/中心对象0(引力中心)来进行计算的。

K-means算法的工作过程说明如下:首先从n个数据对象任意选择k个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都康赛电子科大信息技术有限责任公司,未经成都康赛电子科大信息技术有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200910167659.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top