[发明专利]一种基于自步学习的众包分类数据质量控制方法有效
申请号: | 201710433595.3 | 申请日: | 2017-06-12 |
公开(公告)号: | CN107357763B | 公开(公告)日: | 2020-08-14 |
发明(设计)人: | 张宪超;史珩;梁文新;刘馨月 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F17/18 | 分类号: | G06F17/18;G06Q10/06 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 温福雪;侯明远 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 学习 分类 数据 质量 控制 方法 | ||
本发明公开了一种基于自步学习的众包分类数据质量控制方法,属于计算机科学数据挖掘技术领域。用于多分类众包标注任务的真实分类发现,以及恶意工作者识别。首先,方法根据初始数据集性质计算样本可信度,然后选择样本,然后计算真实标签以及工作者能力,接着根据更新的能力和真实标签重新选择样本然后,在完全选择到全部的样本点之后,进一步优化,最终同时获取标注真实答案以及工作者的能力与恶意与消极工作者识别结果。实验证明,本发现的方法相比传统方法能取得更好的结果。
技术领域
本发明属于计算机科学数据挖掘技术领域,涉及一种基于自步学习的众包分类数据质量控制方法。
背景技术
众包(又称人计算、群众智慧)是指公司企业通过公开的方式将任务分发外包给不确定的(一般是大量的)人群。人们相信“多数人的智慧”远远要比个人的判断更为准确。大量的众包平台将任务分发给注册工作者,然后根据标注的数据付相应的工资。众包得到的数据会应用在大量的数据挖掘、机器学习以及深度学习的任务中,因此众包数据得到的数据质量严重影响了之后的学习任务的结果好坏。在众包分发系统中,对于众包数据进行质量评估与控制的算法起着关键的作用。最直观的众包数据质量控制算法就是多数人投票,即被选中最多的答案标记为正确答案,但这类方法没有考虑到不同实体以及不同工作者之间的差异,之后针对不同工作者标注对象能力的建模方法吸引了大量研究中的注意。本文注意到了这些方法在应用解决实际问题时,假设不同的数据点拥有相同的优先级,这导致该类算法以等概率的方式选择学习工作者的可信度以及实体的标注难度,在标注数据稀疏的情况下,很容易由于少数质量低的标注样本点而影响全局的数据学习。
众包任务的流程大致如下。首先由提交任务的人即发起者在众包平台上提交众包任务,然后参与完成任务的人即工作者接受任务并且给出答案。众包平台收集数据,提供整合后的数据集以及分析结果。发起者获取工作者提供的数据以及工作质量,以及接受程度,支付相应的报酬。一个任务的产出可能是一个人单独的贡献也可能是多个人产出合并的结果,而发起者应该选择其可接受的产出的质量。由于众包任务的公开性,可能有一些恶意工作者,故意提供错误的信息或者随机提供信息,或者能力不足的工作者提供无用的信息,所以工作者的工作质量评估及众包质量控制是一个有着重要意义的问题。
本发明提出了基于自步学习的众包数据分类模型,模型中引入了基于先验以及算法学习情况的样本选择策略,从而引导模型由易到难的选择性学习样本,最终学习完整的数据。本发明同时从数据本身先验知识以及学习过程中模型情况两个方面定义了质量控制算法中“简单”的概念。从概率图生成模型的角度解释了众包分类数据中自步学习引入的意义以及参数选取的方法。
在进行本发明提出的众包质量控制方法中,有4个问题需进一步说明。第一,众包分类标注数据获取方法。第二,众包分类数据中“简单”数据的定义,根据具体简单的定义算法才能动态地选择样本,自步学习;第三,模型参数选取意义,面临新的数据输入如何选择可用的新的参数以保证效果;第四,模型整体迭代方法,整体算法流程,模型参数迭代方法。
发明内容
本发明要解决的技术问题是众包分类数据的质量控制,提出基于自步学习的众包质量控制方法。通过定义众包分类数据中“简单”的定义,将自步学习引入众包分类数据的质量控制中从而提高了算法对真实标签识别的准确率。同时,对于众包任务中消极工作者以及恶意工作者的识别率也有相应的提高。
本发明的技术方案:
一种基于自步学习的众包分类数据质量控制方法,步骤如下:
(一)数据采集阶段:首先,通过设计分类标注任务题目,随机分发给工作者,工作者可以随意选择要做的题目,给出答案。
(二)众包真实分类标签发现阶段:
首先将收到的众包分类数据根据计算工作者标注数据的权重。
1)根据工作者标注的数据的性质计算样本的权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710433595.3/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置