[发明专利]基于众包的对象分类方法及对象分类系统有效
申请号: | 201810343036.8 | 申请日: | 2018-04-17 |
公开(公告)号: | CN108549909B | 公开(公告)日: | 2021-03-12 |
发明(设计)人: | 李建;吴限 | 申请(专利权)人: | 图灵人工智能研究院(南京)有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 上海巅石知识产权代理事务所(普通合伙) 31309 | 代理人: | 王再朝;张明 |
地址: | 210046 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 对象 分类 方法 系统 | ||
本申请公开一种基于众包的对象分类方法及对象分类系统,其中,所述对象分类方法包括:获取待分类的对象;将待分类的对象基于一提问策略而生成一众包任务,将众包任务进行众包分发;收集众包答案并据此获得适合对象的类别;根据已完成分类的各个对象的分类结果,重新估计类别分布并据此调整提问策略,使得完成对对象分类所耗用的提问总数的最少化处理。
技术领域
本申请涉及数据处理技术,特别是涉及一种基于众包的对象分类方法及对象分类系统。
背景技术
在大数据时代下,通过合理的方法去分析和使用已有的数据可以有效的帮助我们解决许多的问题,机器学习领域通过收集有效的标注数据去训练和优化它们的模型和算法,从而更好的对一些事物和问题作出决策和推论。为了获得一个较好的模型,不仅需要足够好的算法,还需要大量的已标注数据(例如对图像、视频、文本等数据类别/内容的标注数据)作为训练和分析的基础。
近年来,随着众包技术的发展,利用众包技术进行数据标注引起了研究者的关注。众包技术是一种分布式的问题求解方式。该技术利用众人的智慧和力量来解决计算机难以解决的任务,尤其是数据标注、对象分类等这类对人类来说非常简单,但是对计算机来讲非常困难的任务。很多标注任务,例如文本标注、图像分类等,均可以通过众包平台发布到互联网上,由来自互联网的普通用户进行标注,普通用户完成数据标注任务并获得发布者提供的经济报酬。
不过,在上述众包技术中,以图像分类为例,发布者事前针对所要分类的图像设计了相应的类别层次架构,并依据设定的类别层次架构设计提问策略,依据提问策略向众包平台发送提问并收集答案。一般地,类别层次架构和提问策略较为固定,而需要标注或分类的图像数据量的规模庞杂,因此,为实现有效分类所需的提问数量将相当巨大。一般地,每一个提问将消耗一定经济成本(例如,一个提问需要支付0.1元),假设每一个提问所耗费的成本是一定的,那么完成整个分类任务所耗费的总成本将直接正比于总的提问的数量。另外,提问数量众多,也会增加数据处理时间,增加时间成本且效率较低。
发明内容
鉴于以上所述相关技术的缺失,本申请的目的在于公开一种基于众包的对象分类方法及对象分类系统,用于解决相关技术中基于众包的对象分类技术存在成本高企等问题。
为实现上述目的及其他目的,本申请的第一方面公开一种基于众包的对象分类方法,包括以下步骤:获取待分类的对象;将所述待分类的对象基于一提问策略而生成一众包任务,将所述众包任务进行众包分发;收集众包答案并根据所述众包答案而获得适合所述对象的类别;根据已完成分类的各个对象的分类结果,重新估计类别分布并据此调整提问策略,使得完成对对象分类所耗用的提问总数的最少化处理。
本申请的第二方面公开一种基于众包的对象分类系统,包括:对象获取模块,用于获取待分类的对象;任务生成模块,用于将所述待分类的对象基于一提问策略而生成一众包任务;收发模块,用于将所述众包任务进行众包分发以及收集对应所述众包任务的众包答案;分类模块,用于根据收集到的众包答案而获得适合所述对象的类别;自学习模块,用于根据已完成分类的各个对象的分类结果进行自学习,重新估计类别分布并据此调整提问策略。
本申请的第三方面公开一种计算机可读存储介质,存储有应用于对象分类的程序,所述程序被所述至少一个处理器执行时,实现如前所述基于众包的对象分类方法中的各个步骤。
本申请的第四方面公开一种数据处理设备,包括:至少一个处理器;至少一个存储器;至少一个程序,其中,所述至少一个程序被存储在所述至少一个存储器中并被配置为由所述至少一个处理器执行指令,所述至少一个处理器执行所述执行指令使得所述数据处理设备执行如前所述基于众包的对象分类方法中的各个步骤。
如上所述,本申请的基于众包的对象分类方法及对象分类系统,具有以下有益效果:根据众包答案所完成的分类结果,重新估计类别分布并据此调整提问策略,使得完成对对象分类所耗用的提问总数最少化,降低完成整个对象分类任务所耗费的总成本,并能提高分类效率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于图灵人工智能研究院(南京)有限公司,未经图灵人工智能研究院(南京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810343036.8/2.html,转载请声明来源钻瓜专利网。