[发明专利]基于众包的高效分类系统及其创建、使用方法在审
申请号: | 202010824572.7 | 申请日: | 2020-08-17 |
公开(公告)号: | CN112101419A | 公开(公告)日: | 2020-12-18 |
发明(设计)人: | 李国良;李元丙;李建;冯建华 | 申请(专利权)人: | 清华大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N5/00 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 白雪静 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 高效 分类 系统 及其 创建 使用方法 | ||
本发明公开了一种基于众包的高效分类系统及其创建、使用方法,其中,该系统包括:学习模块,用于通过在线学习方法以及在在线学习方法中加入记忆窗口的拓展方法来学习类别权重分布;优化模块,用于根据已有或学习模块学习到的学习类别权重,运用贪心算法逐层构建决策树,作为询问策略;众包模块,用于生成优化模块中选择出的问题节点对应的众包问题,将众包问题发布到众包平台以收集聚合答案,实施询问策略。
技术领域
本发明涉及群智计算技术领域,特别涉及一种基于众包的高效分类系统及其创建、使用方法。
背景技术
近年来,众包技术在对机器较难而对人类较容易的问题中得到了广泛的应用,这样的问题包括图片和视频的理解,自然语言处理等;包括实体解析、路径选择、噪声数据过滤在内的越来越多的场景中也有了人类智力的参与。在分类问题中,也可运用此技术。具体来说就是在给定一系列类别和一系列待分类的对象的情况下,通过众包的方式来确定每个对象的类别。在众包的过程中,每个问题都需要一定的花销。在类别数量较多时(如一万个),将所有类别都列为选项往往是不现实的。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于众包的高效分类系统,该系统可减少问题数量,减少众包过程中的交互次数。
本发明的另一个目的在于提出一种基于众包的高效分类系统的创建方法。
本发明的再一个目的在于提出一种基于众包的高效分类系统的使用方法。
为达到上述目的,本发明一方面实施例提出了一种基于众包的高效分类系统,包括:
学习模块,用于通过在线学习方法以及在在线学习方法中加入记忆窗口的拓展方法来学习类别权重分布;
优化模块,用于根据已有或所述学习模块学习到的所述学习类别权重,运用贪心算法逐层构建决策树,作为询问策略;
众包模块,用于生成所述优化模块中选择出的问题节点对应的众包问题,将所述众包问题发布到众包平台以收集聚合答案,实施所述询问策略。
为达到上述目的,本发明另一方面实施例提出了一种基于众包的高效分类系统的创建方法,包括:
S11,定义分类成本和分类延迟;
S12,实现优化模块,对于给定的树形类别结构,基于类别权重分布以贪心算法构建决策树进而得到询问策略;
S13,实现众包模块,生成众包问题、与众包平台交互并收集聚合答案,实施询问策略;
S14,实现学习模块,通过在线学习方法学习类别权重分布。
为达到上述目的,本发明再一方面实施例提出了一种基于众包的高效分类系统的使用方法,包括:
S21,接受给定的树形类别结构和待分类的对象集,初始化并按照需要配置学习模块、优化模块和众包模块;
S22,所述优化模块构建初始状态下的决策树和询问策略;
S23,所述众包模块根据所述决策树生成众包问题并发布到众包平台上,待众包工作者完成后收集并聚合答案,实施所述询问策略;
S24,所述学习模块根据当前已完成对象的类别信息更新类别权重分布;
S25,所述优化模块根据更新后的类别权重分布构建新的决策树和询问策略;
S26,反复执行步骤S23-S25,直至确定所有待分类对象的类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010824572.7/2.html,转载请声明来源钻瓜专利网。