[发明专利]基于1/2相似度偏离的数据预处理方法在审

专利信息
申请号: 201910207769.3 申请日: 2019-03-19
公开(公告)号: CN109902762A 公开(公告)日: 2019-06-18
发明(设计)人: 王熙照;周欣蕾;颜达森 申请(专利权)人: 深圳大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 长沙星耀专利事务所(普通合伙) 43205 代理人: 舒欣
地址: 518060 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 相似度 变换矩阵 数据预处理 目标函数 训练数据 偏离 预处理 相似性度量 原始数据集 参考中心 特征空间 线性变换 线性映射 学习算法 解释性 可分性 数据集 最小化 聚类 求解 优化 预测 学习
【说明书】:

发明公开一种基于1/2相似度偏离的数据预处理方法,这种预处理是一种线性变换,主要任务是学习一个变换矩阵W,然后将原始数据集S变换成为新的数据集。本发明通过最小化设定的目标函数求解变换矩阵,并利用此变换矩阵将训练数据线性映射到新的特征空间。另外,本发明定义一种基于距离的相似性度量方式且巧妙设计了目标函数,使得优化过程有了明显的可解释性:训练数据的相似度以1/2为一个参考中心,在优化过程中相似度逐步偏离1/2从而趋近于0或1,即变换前相似度大的更大,变换前相似度小的更小。该方法增强了数据的可分性,使得基于相似性的学习算法在预测精度或聚类质量等指标上有显著提高。

技术领域

本发明涉及数据挖掘技术领域,且更具体地涉及一种基于1/2相似度偏离的数据预处理方法。

背景技术

众多领域的一些学习问题都能归结于一个数学模型的预测问题。为了能够得到更高的预测精度和更快的预测速度,各类预测算法层出不穷。然而除了对算法性能的不断追求外,从数据本身入手进行预处理操作对提高算法的预测效果也具有重要意义。但如今大多数数据挖掘领域的研究人员面对提升数学模型的预测性能问题,都着力于预测算法的研究。而数据预处理方法及相关技术的研究都相对较少。

数据预处理中一类关键方法是数据变换,它是指将数据集中数据的某种表示形式转换成一种便于挖掘或学习的形式,从而使得数据分析过程更为方便,分析结果更为准确。常用的数据变换方法有主成分分析、数据规范化等,如使用基于距离的数据挖掘算法时,将各维特征数据进行归一化即将其映射到[0,1]之间,消除各项特征之间由于单位和数值量级之间的差别带来的影响,从而提升算法的预测性能。然而数据变换能够带来的预测性能增益远不止于此。例如,基于多层前馈神经网络的深度学习,已在很多领域取得了显著成果,其基本原理就是数据一系列的非线性变换,遗憾的是深度学习的这些变换一般不具可解释性。

在数据预处理中,如何定义数据样本间的相似性度量规则及设计有效的目标函数进而提升数据预处理收益是数据变换方法需要解决的首要问题。现有技术中普遍存在的一个问题是目标函数的设计及优化过程缺乏可解释性,如何在保证学习算法性能的前提下,同时使得变换矩阵W的求解过程具有可解释性是一个极具挑战性但又十分有意义的问题。

发明内容

针对上述技术的不足,本发明公开一种基于1/2相似度偏离的数据预处理方法,能够在提升学习算法性能的前提下,同时使得目标函数得到优化,使得数据变换矩阵的求解过程具有可解释性,改进了相似性学习算法,提高了数据预测能力和预测速度。

本发明采用以下技术方案:一种基于1/2相似度偏离的数据预处理方法,包括以下步骤:

(S1)给定训练数据集S,设计一个前馈神经网络,其中网络的连接权重即为所求的变换矩阵W;

(S2)以迭代的方式最小化设定的目标函数E(W),并逐步更新变换矩阵W的值;

(S3)求得最终的变换矩阵W,并对原始的训练数据集S进行变换,从而得到新的训练数据集S(W)

作为本发明进一步的技术方案,所述步骤(S2)中目标函数的公式为:其中为经过W变换后样本和在新的特征空间的相似性,而是W=I时为变换前样本和在原始特征空间的相似性,并且其中最小化设定的目标函数E(w)的方法为:

(S21)根据距离相似性公式确定β值,并利用单位阵将变换矩阵W初始化为I,其中相似性公式为:式中,β为平衡参数,与为变换前的两个不同的向量,与为变换后的两个不同的向量,d为距离,为欧式距离;

(S22)计算变换矩阵更新的梯度值,计算过程为:

定义:

则:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学,未经深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910207769.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top