[发明专利]一种基于集成TSK模糊分类器的众包质量提升的方法有效
申请号: | 202010039850.8 | 申请日: | 2020-01-15 |
公开(公告)号: | CN111444937B | 公开(公告)日: | 2023-05-12 |
发明(设计)人: | 蒋云良;张雄涛;胡文军;邬惠峰 | 申请(专利权)人: | 湖州师范学院 |
主分类号: | G06F18/2413 | 分类号: | G06F18/2413;G06F18/214;G06F18/2337;G06N20/20 |
代理公司: | 杭州中利知识产权代理事务所(普通合伙) 33301 | 代理人: | 韩洪 |
地址: | 313000 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 集成 tsk 模糊 分类 质量 提升 方法 | ||
本发明提出了一种基于集成TSK模糊分类器的众包质量提升的方法,包括以下步骤:利用含有标签噪音的两分类数据构建多个具有抗噪能力的TSK模糊分类器TSK‑noise‑FC,在挑选出的不含噪音数据的验证集上产生多个增强属性,从而生成增强验证集;利用经典的模糊聚类算法FCM对增强验证集进行聚类,形成含有标签的多代表点数据,记做数据字典,利用生成的数据字典,对含有标签噪音的数据进行快速矫正,对于每一个含噪音数据的众包数据,找到其最近的代表点,该代表点的标签就是预测的结果。该方法能够降低众包的成本,而且运行速度快,多个具有抗噪能力的弱分类器可以并行运行,对于众包数据的预测,只需要找到最近的含有标签的代表点,此代表点的标签就是该众包数据的矫正结果。
【技术领域】
本发明涉及众包系统的技术领域,特别是一种基于集成TSK模糊分类器的众包质量提升的方法。
【背景技术】
众包一词最早是由JeffHowe在2006年提出,即将过去由一个公司或组织内部员工执行的工作,以自由自愿的形式交给大众去完成,然后付给个人一定的报酬。其出现是作为一种分布式的问题解决和生产模式,用以降低任务完成的成本。众包系统利用大量网络工作者的多种技能来解决问题和执行项目。事实上,一些开源的软件(Linux项目)和维基百科都可以被视为众包产品,典型地,全世界最大的图像数据集ImageNet的标注,也是通过众包实现的。这些众包系统包括Amazon MTurk和Crowd Flower最近得到了很大的普及,因为其将请求者将所要解决的问题张贴到拥有大量在线工作人员的众包平台上,为问题得以迅速解决提供了方便的途径。众包成功的应用在了对图像和文档的标注,编写和审阅软件代码,大型产品的设计,筹集资金等。众包的初衷就是为了降低成本,找全世界的工人(专业或业余)来完成一件庞大的工程或项目。
一个完整的众包系统,其工作流程包括任务的分配和接受,众包平台的设计,任务的选择、接受和解答,以及最后答案的提交与整合。其中,最后答案的整合直接决定了众包的成败。虽然众包的应用加速了大型应用问题的解决,但是由于完成任务的工人都是匿名的,这样不可避免会出现噪音甚至恶意标记(比如图像或文档的标记)的发生。即便恶意的工人目前仍是少数,识别出他们,并且提高众包标签的质量仍是一件很重要的事情。目前有两种路径提高众包的质量,一种是每个任务分配一个工人,即每一条数据只有一个标签。众包完成后,首先对所有的数据使用过滤器进行过滤,将有噪音标签的数据过滤掉,再使用相关的矫正算法对有噪音标签的数据进行矫正。第二种途径是将每个任务分配给多个工人,最后以某种方式或策略将他们的答案进行整合。可以用简单的投票表决方法,这种方法假设每个工人的答题准确率是一致的,没有考虑工人的多样性和差异性,例如欺诈者和不具备此任务专业知识的答题者,答题准确率较低,因此这种方法往往不够准确。后来有研究者提出了EM(Expectation Maximization)算法,即将工人之前的答题准确率和工人目前给出的答案相结合,利用贝叶斯理论得到最终的结果。由于工人的准确率在不断的变化,EM算法是一个迭代的过程,因此计算量特别大,无形中也增加了众包的计算成本。由于工人每完成一个任务,众包平台都要支付一定的报酬给工人,将每个任务分配给多个工人,这也在一定程度上增加了众包的经济成本。
本发明的方法基于上述的第一种途径,利用基于集成学习的模糊分类器来降低噪音,提高标签质量。在构造模糊分类器的时候,考虑到多分类任务的复杂性,而且目前大多数众包标签矫正算法都只针对两分类任务,因此本发明提出的标签矫正算法也只针对两分类任务,即y∈{-1,1}。在分配众包任务的时候,由于各工人专业知识的差异性和欺诈者的存在,众包标签存在很大的不确定性,因此,采用模糊分类器,模糊分类器能够处理不确定数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖州师范学院,未经湖州师范学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010039850.8/2.html,转载请声明来源钻瓜专利网。