[发明专利]基于用户偏好的数据清洗方法无效

申请号：	200910167659.5	申请日：	2009-09-17
公开（公告）号：	CN101706791A	公开（公告）日：	2010-05-12
发明（设计）人：	唐雪飞;佘堃;陈科;汪海良	申请（专利权）人：	成都康赛电子科大信息技术有限责任公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06N3/02;G06N3/08
代理公司：	暂无信息	代理人：	暂无信息
地址：	610054 四***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于用户偏好数据清洗方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

所属技术领域

本发明涉及基于用户偏好的数据清洗方法，特别是在用户数据分类较多，数据量庞大的情况。

背景技术

目前的数据清洗方法大多是针对某类特定应用域的数据清洗，在设计模式和使用方式等方面都是以“数据”为中心，忽略了“用户”这个真正的核心，这些方法虽然能够根据发现的错误模式，编制程序或借助于外部标准源文件、数据字典等手段，在一定程度上修正错误；但经常须编制复杂的程序或借助于人工干预完成；而且这一系列工作都是针对某一特定行业开发的，没有通用性。

发明内容

为了克服现有的数据清洗方法不能有效地区分用户专有数据的不足，本实用新型提供一种数据清洗方法，该数据清洗方法可以自动学习用户偏好，从而识别用户数据采用最优数据定位预测的数据分析方法，高效、准确地识别“脏数据”并进行标记。数据清洗服务剔除系统“脏数据”和错误数据，并通过底层硬件接口对外接口输入干净的数据。

技术方案

基于用户偏好的数据清洗将数据处理的核心对象从“数据”转为“用户”，采用神经网络算法对用户行为进行学习和记忆；同时采用先进的中间件技术，完成数据清洗操作。

1.采用K-means模糊聚类分析神经网络方法，采用半监督学习算法，对用户行为进行自动学习与记忆，同时对大量不确定的信息进行深度自适应性学习训练，从而达到对未知语义的自适应分类、聚类、识别，以及对已知语义的透明操作，使系统自动对用户偏好数据区进行识别和标记，实现智能化用户偏好定义功能。

2.在数据交换层，利用XML的平台独立性和系统可扩展性，在数据处理过程中，对中间数据进行XML解析、标记与存储，同时对特定用户偏好相关的敏感数据标签进行加密和签名，从而彻底保障数据的完整性和安全性。

3.通过不同的过滤处理元实现术语模型、过程描述文件、共享库等概念，利用XML实现各个过滤处理元的高度独立性和系统的可扩展性，很好地弥补了现有数据清洗和灾备产品中不具有互操作性的缺点，向用户提供了一个可视化的流程定义环境。

本发明的有益效果是，在数据清洗过程中始终以用户数据为核心，达到“以人为本”的数据清洗效果。

附图说明

图1系统整体架构

图2基于K-means算法的一组对象的聚类

图3用户偏好学习与标记流程

图4基于用户偏好的数据清洗系统流程

图5最优数据定位预测的K步模糊神经网络自动机模型

图6过滤服务元结构

图7XML管道过滤处理架构

具体实施方式

系统架构如图1如示。

1.用户偏好学习与标记系统

用户偏好学习与标记系统采用K-means模糊聚类分析神经网络算法实现对用户行为的学习与记忆，采用大量用户行为数据作为样本数据进行训练，完成用户偏好的识别，并对偏好数据进行标记。

K-means算法属于聚类分析的一种，就是将一组物理的或抽象的对象，根据它们之间的相似程度，分为若干组；其中相似的对象构成一组，这一过程就称为聚类过程。也就是从给定的数据集中搜索数据项之间所存在的有价值联系。在许多应用中，一个聚类中所有对象常常被当作一个对象来进行处理或分析：

(1)输入：聚类个数k，以及包含n个数据对象的数据库；

(2)输出：满足方差最小标准的k个聚类；

(3)处理流程：从n个数据对象任意选择k个对象作为初始聚类中心；根据每个聚类对象的均值(中心对象)，计算每个对象与这些中心对象的距离，并根据最小距离重新对相应对象进行划分；重新计算每个(有变化)聚类的均值(中心对象)；循环到直到每个聚类不再发生变化为止。

K-means算法接受输入量k；然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高，而不同聚类中的对象相似度较小，聚类相似度是利用各聚类中对象的均值所获得一个/中心对象0(引力中心)来进行计算的。

K-means算法的工作过程说明如下：首先从n个数据对象任意选择k个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度(距离)，分别将它们分配给与其最相似的(聚类中心所代表的)聚类；然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值)；不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于成都康赛电子科大信息技术有限责任公司，未经成都康赛电子科大信息技术有限责任公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200910167659.5/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于用户偏好的数据清洗方法无效

专利文献下载