[发明专利]基于加权分布对齐和几何特征对齐的无监督跨领域自适应数据标定方法及系统在审
申请号: | 201811547551.4 | 申请日: | 2018-12-18 |
公开(公告)号: | CN109635951A | 公开(公告)日: | 2019-04-16 |
发明(设计)人: | 何慧;张伟哲;方滨兴;杨洪伟;李韬;白雅雯 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06N7/00 | 分类号: | G06N7/00 |
代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 杨立超 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 对齐 数据标定 几何特征 加权 样本数据 无监督 自适应 有效地 准确率 条件概率分布 概率分布 几何结构 实验对比 可分性 正则化 减小 样本 挖掘 开发 | ||
基于加权分布对齐和几何特征对齐的无监督跨领域自适应数据标定方法及系统,涉及数据标定技术领域。本发明为了有效地提高数据标定准确率。加权分布对齐能够权衡样本数据的边际概率分布和条件概率分布的重要性,进而减小领域间的差异;几何特征对齐不但能进一步挖掘领域间样本数据的几何特征,而且通过图拉布拉斯正则化可以很好的保持样本数据空间的几何结构,进而提高样本可分性和数据标定的准确性。通过与其他方法进行实验对比,本发明开发的系统—基于加权分布对齐和几何特征对齐的无监督跨领域自适应数据标定方法可以有效地提高数据标定准确率。
技术领域
本发明涉及一种无监督跨领域自适应数据标定方法及系统,涉及数据标定技术领域。
背景技术
无监督领域自适应问题是迁移学习的一类子问题,其旨在解决目标域没有标签数据的领域适配问题。以往的研究成果主要以基于样本的领域适应和基于特征变换的领域适应为主。而基于特征变换的领域适应问题方法可以分为以数据为中心的方法及以子空间为中心的方法,以数据为中心的方法主要目的是找到一个一致的变换将源领域和目标领域的数据映射到一个域不变空间来减小分布差异并且保持原始空间的数据特征,但是这种方法没有进一步利用数据的几何特征,因为经过特征变换之后原始特征空间已经发生扭曲或者拉伸;以子空间为中心的方法只是对子空间进行处理,并没有明确的考虑映射之后领域间的分布差异。
发明内容
本发明的目的是提供一种基于加权分布对齐和几何特征对齐的无监督跨领域自适应数据标定方法及系统,以有效地提高数据标定准确率。
本发明为解决上述技术问题采取的技术方案是:
技术方案一:一种基于加权分布对齐和几何特征对齐的无监督跨领域自适应数据标定方法,所述方法的实现过程为:
所述方法的输入:Xs,Xt,Xs表示源领域样本,已知标签样本;Xt表示目标领域样本,待标记样本;表示源领域样本标签;
参数:
α=1为待标记样本方差最大化的重要性程度评估,
λ=1为广义特征变换内部差异的重要性程度评,
β为类间方差最大化(使不同类别的样本)重要性程度评估,
μ∈[0,1]为评估领域内边际分布和条件分布重要性参数,
δ∈[0,1]为图拉普拉斯正则化项(进一步挖掘边际分布的重要性)系数,
p为样本的最近邻个数,
k为子空间个数,T为迭代次数;
所述方法的输出为:
变换矩阵Φ,Ψ;Xs经过变换矩阵Φ得到的Zs,Xt经过变换矩阵Ψ得到的Zt;适应分类器:f;
步骤1、计算目标域散度矩阵St、数据的类间散度矩阵Sb、类内散度矩阵Sw,
M′s,M′t,M′st,M′ts为源领域样本和目标领域样本的边际概率分布和条件概率分布的加权和与其对应的加权拉普拉斯正则化项之和(主要是通过对条件概率分布和边际概率分布的分布特征进一步挖掘潜在知识以更好的为目标领域样本分类提供先验知识);
M′s,M′t,M′st,M′ts是一个矩阵中的四个分块;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811547551.4/2.html,转载请声明来源钻瓜专利网。