[发明专利]迁移学习方法及装置有效
申请号: | 201510032970.4 | 申请日: | 2015-01-22 |
公开(公告)号: | CN104616031B | 公开(公告)日: | 2018-06-12 |
发明(设计)人: | 桂林;徐睿峰;陆勤;周俞 | 申请(专利权)人: | 哈尔滨工业大学深圳研究生院 |
主分类号: | G06K9/66 | 分类号: | G06K9/66;G06F17/30 |
代理公司: | 深圳鼎合诚知识产权代理有限公司 44281 | 代理人: | 林宏津;郭燕 |
地址: | 518055 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 迁移 样本 迭代 迭代周期 误差检测 学习 学习过程 标注 自动化 输出保留 相关参数 质量确定 自动标注 初始化 分类器 剔除 删除 筛选 保留 应用 | ||
本发明公开了一种迁移学习方法及装置,方法包括:设置迁移学习的相关参数并初始化;开始迁移学习迭代,获得自动化标注数据;当迭代次数满足迭代周期,对该迭代周期内作为样本的自动化标注数据进行误差检测,确定该迭代周期的样本相对质量;根据样本相对质量确定样本的删除或保留,并确定是否继续迁移学习迭代,当终止迁移学习迭代,输出保留的样本和迁移分类器。本发明的有益效果是:在迁移学习过程中,将学习过程按迁移周期划分,每满一个迁移周期则进行误差检测,根据误差检测确定的样本相对质量筛选样本,由此来剔除低质量样本以达到提高迁移学习中自动标注数据的样本质量的目的,进而提升应用迁移学习方法的系统的准确性。
技术领域
本发明涉及机器学习领域,具体涉及一种迁移学习方法及装置。
背景技术
在传统分类学习中,为了保证训练得到的分类模型具有准确性和高可靠性,都有两个基本的假设:(1)用于学习的训练样本与新的测试样本满足独立同分布的条件;(2)必须有足够可利用的训练样本才能学习得到一个好的分类模型。但是,在实际应用中人们发现这两个条件往往无法满足。然而,作为机器学习中的一个重要分支的迁移学习则放宽了传统机器学习中的两个基本假设。迁移学习主要针对从资源较丰富的源领域和目标领域获取知识训练相关模型,进而解决资源相对缺乏的目标领域的问题,即迁移已有的知识来解决目标领域中仅有少量有标签样本数据甚至没有的学习问题。这一方法在目前的自然语言处理等领域有着广泛的应用,例如跨语言迁移问题、跨领域迁移问题以及其他的训练数据和测试数据来自不同分布的实际问题。因此,研究迁移学习变得非常重要。
目前迁移学习的方法及其在NLP(Natural Language Process,自然语言处理)领域的应用,其侧重点在于如何利用源领域数据训练相关模型,给予目标领域未标注数据以正确的标签,并且将其中置信度高的样本按照一定比例添加到训练数据中,进而达到扩充训练集的目的。关于迁移学习的具有代表性的方法有自学习(self-training)、联合学习(co-training)等。
然而,无论是自学习的迁移学习方法或是联合学习的迁移学习方法,在添加的样本选择和添加过程中,迁移到训练集的目标领域样本由于其标签来自于机器学习算法,可能有一定的错误率;特别是在其训练样本来自于源领域样本的前提下,错误率可能会更高。而随着样本迭代的进行,由于错误样本数量的不断累加,迁移学习算法的性能往往会下降,这种情况被称作“负迁移(negative transfer)”,这和迁移样本引入的带有错误标签的迁移样本的累积是有着密切关系的。因为传统的迁移学习对无标注样本进行自动标注,其误差会在迭代过程中累积。在整个学习过程的初期,由于自动标注样本对训练集的扩充,算法的性能指标会出现上升,但是随着误分类样本的累积,样本质量变差,算法性能会在学习过程的中后期出现下降。对于答案未知的实际任务,这一问题使得实验人员很难确定算法停止迭代的时间点,影响了系统所能达到的性能。
目前的针对迁移学习的机器学习方法,其着眼点往往在于基线方法的准确率,对于在迁移过程中的错误标签样本的问题并未解决。因此,寻找一种面向迁移学习过程中所产生的错误标签样本的检测方法,具有很强的现实意义。
发明内容
根据本发明的一个方面,提供一种迁移学习方法,包括:
初始步骤:设置迁移学习的相关参数并初始化;
样本获取步骤:开始迁移学习迭代,获得自动化标注数据;
周期计算步骤:当迭代次数满足迭代周期,对该迭代周期内作为样本的自动化标注数据进行误差检测,确定该迭代周期的样本相对质量;
结果处理步骤:根据样本相对质量确定样本的删除或保留,并确定是否继续迁移学习迭代,当终止迁移学习迭代,输出保留的样本和迁移分类器。
根据本发明的另一个方面,提供一种迁移学习装置,包括:
初始模块,用于设置迁移学习的相关参数并初始化;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学深圳研究生院,未经哈尔滨工业大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510032970.4/2.html,转载请声明来源钻瓜专利网。