[发明专利]多示例多标记框架下基于域适应迁移学习设计方法和系统在审
申请号: | 201610116295.8 | 申请日: | 2016-03-01 |
公开(公告)号: | CN105787513A | 公开(公告)日: | 2016-07-20 |
发明(设计)人: | 吴建盛;郑茂;胡海峰 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 汪旭东 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 示例 标记 框架 基于 适应 迁移 学习 设计 方法 系统 | ||
技术领域
本发明涉及多示例多标记框架下基于域适应迁移学习设计方法和系统,属于 机器学习的技术领域。
背景技术
传统的监督学习假设样本只具有一种语义信息或类别标记,但这样的假设 与现实中的许多学习任务并不相符。比如,在文档分类任务中,一篇关于雾霾 的新闻报导,可能同时涉及“环境”、“人口”、“经济”等多个语义概念;在图 像识别任务中,一幅城市风光照片可能同时包含“建筑”、“街道”和“日落” 等语义对象。类别标记的扩展使得只考虑明确、单一语义的传统监督学习框架 难以取得好的效果。因此,对每个训练样本赋予由一组类别标记组成的标记子 集来表示出其多种语义信息,学习任务也相应变为预测未知样本相关类别标记 集合。这种多示例多标记学习框架能够更好更准确的描述对象,已经成为机器 学习领域的热点研究方向,并应用到很多新的领域,如音乐分类、蛋白质功能 分类、Web挖掘、互联网海量数据信息检索以及图像和视频的语义分类等。然 而,传统的多示例多标记学习算法在大规模数据中的应用中都基于以下的两个 基本假设:
1)训练集和测试集数据样本满足特征空间和标记空间相同,且满足独立 同分布(i.i.d)。
2)分类模型的预测性能取决于训练样本的数量。这就使得大量服从独立 同分布(i.i.d)训练样本的存在成为学习效果良好的前提。
然而,标记未知样本构建训练样本集代价巨大,已标记样本的数量往往是稀 少而且珍贵的,对于多示例多标记学习来说,尤其如此。针对多示例多标记学习 的优点,现在已提出很多优秀的算法,如MIMLfast算法,MIML—SVM算法等等, 然而这些算法的设计者们注意力更集中于如何提升算法速度,将该框架应用到大 规模数据中,却忽视了多示例多标记训练样本数目不足的难题。
为了解决样本稀缺的问题,迁移学习应运而生。迁移学习注重于利用已有的 知识,对不同但相关的领域(源域到目标域)问题进行求解的一种新的机器学习 方法,它放宽了传统多示例多标记学习中的两个基本假设,目的是迁移已有的知 识来解决目标领域中仅有少量甚至没有已标记样本的学习问题。虽然源域存在大 量的已标记样本,但由于源域和目标域样本分布不同,故不能直接用源域样本训 练的模型来预测目标域样本的类别标记;而目标域只有少量的不足以训练出可靠 模型的已标记样本,因此如何有效的利用源域数据来帮助目标域任务的学习是迁 移学习面临的主要问题。迁移学习中的域适应算法(DAL)主要着眼于解决源域 和目标域之间的分布差异,已经吸引了越来越多的研究者的关注。域适应学习 (DAL)有两个最关键的问题:如何选择有效的度量去反映源域和目标域之间的 分布差异;如何设计合适的域适应过程,使得度量最小化。而本发明能够很好地 解决上面的问题。
综上所述,迁移学习可以有效的弥补多示例多标记学习训练样本缺乏的不足, 而多示例多标记学习又可以使得迁移学习有效的避免“负迁移”,因此它们互相 补充,相辅相成;也就是说,迁移学习可以解决多示例多标记训练样本不足的问 题,多示例多标记学习可以提升迁移学习算法的应用范围和性能。但目前迁移学 习主要集中于单示例单标记领域的知识迁移,还没有一种有效的算法能充分利用 迁移学习和多示例多标记算法的互补性,将迁移学习和多示例多标记学习统一到 同一个框架中。
发明内容
本发明目的在于针对上述传统多示例多标记学习方法可用训练样本不足,提 供了一种多示例多标记框架下基于域适应迁移学习设计方法和系统。本发明能够 很好地解决训练样本的问题,从而能够有效地拓展了多示例多标记学习的应用范 围;本发明完成了多示例多标记学习与迁移学习的统一,解决了大规模数据下样 本集合分布不同的问题;本发明放宽了传统多示例多标记监督学习的假设,提升 了多示例多标记算法的学习效率,提高了分类的准确度。
本发明解决其技术问题所采取的技术方案是:一种多示例多标记框架下基于 域适应迁移学习设计方法,该方法包括多示例单示例化过程和域适应过程。
多示例单示例化过程:由于多示例学习样本是由多个单示例组成的示例包。 通过本过程将多示例样本包转化为单示例样本,便于域适应。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610116295.8/2.html,转载请声明来源钻瓜专利网。