[发明专利]机器学习方法和装置有效
申请号: | 201010280239.0 | 申请日: | 2010-09-09 |
公开(公告)号: | CN102402713A | 公开(公告)日: | 2012-04-04 |
发明(设计)人: | 杨宇航;于浩;孟遥;陆应亮;夏迎炬 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06N99/00 | 分类号: | G06N99/00 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 康建峰;苗迎华 |
地址: | 日本神*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机器 学习方法 装置 | ||
技术领域
本发明涉及机器学习领域,更具体而言,涉及一种容错的机器学习方法和装置。
背景技术
机器学习旨在研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习方法和装置被广泛应用于不同领域的任务,例如计算机视觉、自然语言处理、生物信息学等。
机器学习可以分为有指导学习和无指导学习两大类。一般情况下,无指导的学习方法使用未标注的数据集训练分类器。图1示出了现有技术中的一种无指导机器学习方法的示意性流程图。在步骤S110中,对未标注的数据集进行随机标注,获取训练集。在步骤S120中,用训练集训练分类器。在步骤S130中,用训练出的分类器预测待处理的实例集合。无指导的学习方法无需投入大量人力对数据集进行标注,但是由于数据集未经标注,效果可能不是很理想。
图2示出了现有技术中的一种有指导机器学习方法的示意性流程图。在步骤S210中,用人工标注的训练集训练分类器。在步骤S220中,用训练出的分类器预测待处理的实例集合。有指导的学习方法使用大量人工校对的数据,从而可以取得较好的效果。但这样的方法很难移植到资源有限的领域或应用。
因此机器学习方法经常面临这样的窘境:无指导的方法可能效果并不十分理想,而有指导的方法需要消耗大量的人力物力用于准备训练语料。
为了克服这种窘境,出现了半指导的学习方法。图3示出了现有技术中的一种半指导机器学习方法的示意性流程图。与图1的无指导学习方法相比,图3中在训练分类器时,除了使用从未标注的数据集中随机标注和获取的训练集之外,还使用了人工标注的训练集。图4示出了现有技术中的另一种半指导机器学习方法的示意性流程图。在图4的方法中,在步骤S410中人工标注和获取一个种子集合,并在步骤S420中用该种子集合训练一个分类器。另外,为了提高分类器的性能,在步骤S430中,用分类器预测待处理的实例集合;在步骤S440中,将预测结果中可信度最高的实例加入种子集合中;以及在步骤S450中,利用加入实例的种子集合再次训练分类器。重复步骤S430至S450,直到满足规定的重复终止条件。
半指导的方法可以同时使用标注和未标注的语料,但依然严重依赖于标注语料的规模和质量。如何在人工参与程度和性能方面寻求平衡依然是机器学习领域面临的重要挑战。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
鉴于现有技术的以上情况,本发明旨在提供一种高效的、容错的机器学习方法和装置。
根据本发明的一个方面,一种机器学习方法包括:利用不同的方法从未标注的数据集中自动标注和获取n个不同的种子集合S1,S2,...,Sn,n是自然数且n≥2;利用所述n个已自动标注的种子集合S1,S2,...,Sn分别训练相应的n个分类器C1,C2,...,Cn;对于所述n个已自动标注的种子集合中的每个种子集合Si,i=1,2,...,n,利用所述n个分类器中的除由该种子集合Si训练的分类器Ci之外的部分或全部分类器对该种子集合Si进行验证;以及利用经验证的所述n个种子集合S1,S2,...,Sn分别再次训练所述相应的n个分类器C1,C2,...,Cn。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010280239.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:输出轴机构及带减速机的电动机
- 下一篇:一种齿轮钻孔夹具