[发明专利]基于鉴别流形的跨数据域的转移学习分类方法有效
申请号: | 201310113911.0 | 申请日: | 2013-04-02 |
公开(公告)号: | CN103177114A | 公开(公告)日: | 2013-06-26 |
发明(设计)人: | 方正;张仲非 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州宇信知识产权代理事务所(普通合伙) 33231 | 代理人: | 刘芬豪 |
地址: | 310027 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 鉴别 流形 数据 转移 学习 分类 方法 | ||
技术领域
本发明属于数据处理技术领域,特别地涉及一种基于鉴别流形的跨数据域的转移学习分类方法。
背景技术
在以海量大数据为代表的信息时代,各种数据以几何级数爆发增长,数据潜在价值的挖掘已成为人们关注和研究的热点。不管是互联网,还是移动通信、金融领域,日常生活都不断地产生大量的数据,其中分类技术是一种挖掘数据潜在有用知识的非常有效地方法。例如,互联网用户每天都需要收发大量的电子邮件,如何帮助用户分门别类地将邮件整理分类,自动地识别垃圾邮件就需要准确有效的分类技术来智能地帮助用户。又如,在网路路由器节点上,如何有效地对数据流进行分类检测,及时发现异常现象和木马病毒数据,对维护网络的安全和稳定性有着极大的作用。而在金融领域的对用户交易行为的监测和分类,有助于识别恶意的欺诈交易行为,从而能够避免其将带来的重大经济损失。
另一方面,在实际的数据挖掘分类问题中,往往需要可靠的标签数据作为训练样本。而要得到这样的训练数据,需要大量的人力、物力和时间。这样经常导致研究的对象领域只有少量有限的被人工分类的标签数据可用以训练模型。但如果同时在相关的类似数据域中有一定量的已分类的可靠数据,通过有效地利用不同数据域的关系进行知识的迁移,就可以在训练数据匮乏的情况下,也能够对目标域的数据也进行建模和准确分类。不仅如此,以互联网为例,尽管在某一时刻,的研究数据中有充分的标签数据,但随着时间的发展,未来时刻的数据将发生演化,通过之前数据训练的已有模型未必能适应之后的未来数据对象,需要重新调整或者训练,这就又将带来繁重的人力和时间投入。如何借鉴和利用先前时刻训练数据中的信息和知识,降低重新训练所带来的投入要求,对于研究不同时间的数据域的分类问题有着至关重要的意义。现有的许多先进技术中最为代表性的转移学习技术,就是致力于解决如何利用其他数据域的标签和有用信息,来辅助目标对象数据域的聚类、分类等知识挖掘问题。
在现有的转移学习文本挖掘算法中,很多研究人员提出了挖掘潜在数据表达因子,利用数据维度的隐藏因子和特征维度的隐藏因子之间的关系结构作为多个域之间共享的物理量。通过这种共享隐藏因子关系结构建立起来的多数据域间关系,在一定程度上达到了迁移数据域间知识的作用,可以在目标域只有少量训练样本的情况下,利用辅助域的标签数据进行训练和分类。然而在转移学习技术的大部分隐藏因子挖掘算法中,得到的隐藏因子缺乏有利于准确分类的鉴别特性。由于多数隐藏因子是通过矩阵分解联合聚类的框架模型得到的,在保持数据内在的聚类结构的同时,忽略了数据鉴别结构的挖掘,从而失去了进一步提高对于所属类别准确预测的能力。而且尽管在转移学习的过程中,利用和共享了目标域和辅助域的各个维度隐藏因子的潜在联系,最终学习到的隐藏因子之间还是存在不同域之间的分布差距。尤其是当目标数据域和辅助数据域的分类判决函数相同的情况下,尽管能对辅助域的数据进行准确的分类,但由于数据分布的域间偏移,分类器在目标域里还是不能达到理想的分类效果。
鉴于现有的基于隐藏因子挖掘的转移学习分类方法中存在的缺点和不足,本发明提出的转移学习分类技术能够在保持数据良好聚类结构的同时,挖掘数据中利于分类的鉴别结构,而且通过不同数据域的最大均值差异(Maximum Mean Discrepancy,MMD)距离的调节,最终得到的隐藏因子的域间偏差能够极大地减小。从而,有效地解决了跨数据域之间的转移学习分类的问题。相比于现有的基于隐藏因子挖掘的转移学习分类技术,提出的分类器在准确率和稳定性上有了很大的提高。
发明内容
为解决上述问题,本发明的目的在于提供一种基于鉴别流形的跨数据域的转移学习分类方法,用于在跨数据域转移学习分类的同时,通过一定约束条件下的联合矩阵分解和回归鉴别模型的统一结合,学习得到一种鉴别的数据流形空间,在这一流形空间里的数据新的表达因子具有有利于分类的高度鉴别结构,同时也保持了数据原有的聚类流形结构。通过域间数据分布距离MMD(Maximum Mean Discrepancy,最大均值差异)的最小化,不同数据域间学习得到的隐藏因子的域间差异得到极大地减小,从而进一步提高了跨数据域的转移学习分类器的准确性和稳定性。
为实现上述目的,本发明的技术方案为:
一种基于鉴别流形的跨数据域的转移学习分类方法,包括以下步骤:
S1O,输入各个数据域的数据和用于训练的标签数据,对数据建立用于谱图几何调节的邻接图;
S20,对所述输入的数据、标签信息和建立的邻接图,将跨数据域的联合矩阵分解模型、鉴别回归模型、跨数据域的距离调节、流形几何调节等优化目标结合,建立统一的数学模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310113911.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于索引的XPath查询模式树匹配方法
- 下一篇:防烫手脱手碗
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置