[发明专利]一种面向搜索排序的主动众包任务生成方法有效
申请号: | 201811566627.8 | 申请日: | 2018-12-19 |
公开(公告)号: | CN109710736B | 公开(公告)日: | 2020-08-14 |
发明(设计)人: | 张寅;杨璞;胡滨 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 傅朝栋;张法高 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 搜索 排序 主动 任务 生成 方法 | ||
本发明公开了一种面向搜索排序的主动众包任务生成方法,属于数据处理方法领域。本发明利用了主动学习,在众包任务生成过程中考虑用户输入的查询词与排序模型的结果,不仅使得生成的众包任务适合当前工人,还提高了任务对模型的针对性,能更高效地提升排序学习模型的训练效率,大大节约了众包的人力与时间成本。
技术领域
本发明涉及主动学习方法在众包技术上的应用,尤其涉及众包系统中任务生成的技术方法。
背景技术
在信息爆炸的当下,信息检索广泛得出现在人们的日常生活中,并且其强调的重点已逐渐从获取与检索词相关的文件转向给出按照人们对信息的关心程度进行排序的文件列表。信息检索与搜索排序的方法也从传统方法向结合机器学习的排序学习方法(Learning to Rank)转移。此类方法与其他多数机器学习方法相似,是一种需要大量训练数据集进行模型训练的监督学习方法。
由于训练监督学习算法往往需要大量已标注数据,尤其是高质量的已标注数据。出于对时间、经济成本的考虑,越来越多的数据需求者选择充分利用社会资源而大大降低成本的众包模式作为得到数据集的方法。但人力资源、时间资源都非常宝贵,如何设计众包模式、选择众包任务从而用尽可能少的人力与时间尽可能多地提升模型的训练效率已成为众包过程中研究者们关注的问题。
基于用更少的资源得到更高质量数据集的需求,主动学习(Active Learning)成为很多研究者的选择。研究表明,在大多数模型训练中,更大的数据集并不一定带来更好的训练结果,主动学习意在主动选择那些对模型更难、信息量更大的数据进行学习,从而达到提升模型训练效果的目的。这种方法与尽量减少众包标注的时间与人力成本的目标不谋而合。因此,可以将主动学习应用于众包任务生成的技术中,以提高众包效率、降低成本。
在搜索排序场景中,用于训练排序学习模型的数据是经过预先标记的查询-文档对数据,即在该数据中,每个查询-文档对中均含有查询词、对应文档以及代表该查询词与文档之间的相关程度的系数值。这种标记数据中的系数值往往需要通过众包模式分发给工人进行人工打分标记。然而此类数据集往往十分庞大,对于每条数据均进行人工打分标记的时间成本、工人成本往往也无法承受。因此。受限于众包预算需要选择一种优化的搜索排序场景中众包任务生成策略。
发明内容
本发明的目的在于解决现有技术中搜索排序场景中众包任务生成策略存在的问题,并提供一种面向搜索排序的主动众包任务生成方法。
本发明的发明构思是利用主动学习形成搜索排序场景中的众包任务生成策略。对于某个具体目标的众包应用,本发明首先根据已标注的数据训练排序模型,得到模型打分不确定性最大的区间,再根据用户输入的查询词得到落在不确定性最大区间的查询-文档对,以此作为众包任务。
本发明所采用的具体技术方案如下:
一种面向搜索排序的主动众包任务生成方法,其步骤如下:
1)利用已标注数据训练排序学习模型(Learning to rank),得到训练好的排序模型;所述的已标注数据为已经过人工打分的查询-文档对,打分分值反映查询词与文档的相关程度;
2)利用1)中训练好的排序模型对已标注数据进行打分,并对得到的打分进行最大最小归一化,使所有已标注数据的打分结果归一化后的分数值区间与人工打分的分数值区间相同;
3)将所述的分数值区间划分为若干个子区间,然后对2)中每个已标注数据归一化后的模型打分分数与人工打分的分数进行求差,计算归一化后的模型打分分数落在每个子区间中的数据集对应的分数平均差值,计算方法为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811566627.8/2.html,转载请声明来源钻瓜专利网。