[发明专利]一种基于样本选择的域自适应降维方法在审

专利信息
申请号: 201910225963.4 申请日: 2019-03-25
公开(公告)号: CN110110739A 公开(公告)日: 2019-08-09
发明(设计)人: 马争鸣;光毓;刘希 申请(专利权)人: 中山大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 暂无信息 代理人: 暂无信息
地址: 510275 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 样本 投影矩阵 目标域 自适应 地标 降维 流形 源域 数据分布 样本选择 域间 子集 无约束优化问题 矩阵 低维子空间 共轭梯度法 差异比较 机器学习 数据投影 优化问题 匹配域 迭代 求解 算法 优化 衡量 转化 学习
【说明书】:

发明涉及机器学习中域自适应相关问题,提出了一种基于样本选择的域自适应降维算法。为了减少源域和目标域之间的数据分布差异,学习一个降维矩阵,把源域和目标域数据投影到一个低维子空间中。首先在源域和目标域样本中寻找一个子集,该子集中的样本是对衡量域间数据分布差异比较重要的样本,把这些样本叫做地标样本,利用地标样本匹配域间差异。在对投影矩阵进行优化时,本发明把投影矩阵看做是格雷斯曼流形上的点,把在欧式空间中的约束优化问题转化为格雷斯曼流形上的无约束优化问题,利用格雷斯曼流形上的共轭梯度法求解投影矩阵。交替优化投影矩阵和地标样本直至达到最大迭代次数,使域间差异达到最小。

技术领域

本发明涉及面向机器学习领域的域自适应技术,具体是一种基于样本选择的域自适应降维学习方法。

背景技术

在解决标准的机器学习和模式识别的任务时,需要大量的已标记样本进行建模。但是,采集有标签的数据样本在很多情况下需要耗费大量的人力物力。域自适应学习,可以将数据跨域关联起来:在域自适应学习中存在源域和目标域,利用来自源域的标记样本学习目标域中未标记的样本。换句话说,域自适应学习在域间传递知识,使得在目标域中也能解决学习任务。另外,传统的降维方法都有一个共同的前提假设——所有的样本来自于同一特征空间或具有相同的分布。域自适应学习解决了数据样本具有不同分布的问题:源域和目标域具有不同却相关的分布。域自适应学习的目的就是缩小源域与目标域之间的差异。从目标域数据是否含有标签来看,域自适应学习分为两种,一种为无监督的域自适应学习,即目标域数据无标签。一种为半监督的域自适应学习,即有部分的目标域数据有标签。本发明针对无监督的域自适应学习方法。

域自适应的研究现状中,可以分为两大方法:样本层面的方法和特征层面的方法。样本层面的方法分为两类:基于样本标记的方法和基于变权的方法。基于样本标记的方法首先选择训练样本中的一些点作为地标样本,再利用这些地标样本进行学习任务。地标样本选择的重要性在于,一些跨域关键样本彼此相近,可以减小域间分布差异,而有些样本远离另一个域,考虑该样本就会增加域间的距离,所以忽略对这些样本的考察对建立跨域信息更有好处。选择地标样本能充分利用关键样本,使域间差异降到最小。例如,Gong等人(文献1,Gong B,Grauman K,and Sha F,Connecting the dots with landmarks:Discriminatively learning domain-invariant features for unsupervised domainadaptation,in Proc.ICML,2013,pp.222–230.)首先在源域中寻找地标样本,这些样本是源域中分布最类似于目标域的标记数据样本的子集。利用这些关键样本与目标域建立连接。与基于样本标记的方法思想类似,基于变权的方法赋予关键样本较大的权重、不重要的样本较小的权重来缩小域间差异。特征层面的方法主要思想是,学习一种新的特征表示,将各个域的特征映射到一个潜在的子空间中,以最小化域间差异。TCA(文献2,Pan SJ,TsangI,Kwork J et al(2011)Domain adaptation via transfer component analysis.IEEETrans Neural Netw 22:199-210)采用数据降维的方式转移两个域之间的信息到共同的特征空间中。在该文献中,把源域和目标域的样本共同映射到再生核希尔伯特空间中,利用最大均值差异(Maximum Mean Discrepancy简称MMD)缩小域间距离。在此基础上提出的IGLDA(文献3,Jiang M,Huang W,Huang Z et al(2017)Integration of global and localmetrics foe domain adaptation learning via dimensionality reduction.IEEETrans Cybern 47(1):142-152)算法,把源域和目标域的数据映射到同一个子空间。在这个子空间中,不仅利用MMD降低了源域和目标域间的概率分布差异,同时保持源域数据的局部信息,利用这两个性质学习转移成分。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910225963.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top