[发明专利]一种面向搜索排序的主动众包任务生成方法有效
申请号: | 201811566627.8 | 申请日: | 2018-12-19 |
公开(公告)号: | CN109710736B | 公开(公告)日: | 2020-08-14 |
发明(设计)人: | 张寅;杨璞;胡滨 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 傅朝栋;张法高 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 搜索 排序 主动 任务 生成 方法 | ||
1.一种面向搜索排序的主动众包任务生成方法,其特征在于,步骤如下:
1)利用已标注数据训练排序学习模型,得到训练好的排序模型;所述的已标注数据为已经过人工打分的查询-文档对,打分分值反映查询词与文档的相关程度;
2)利用1)中训练好的排序模型对已标注数据进行打分,并对得到的打分进行最大最小归一化,使所有已标注数据的打分结果归一化后的分数值区间与人工打分的分数值区间相同;
3)将所述的分数值区间划分为若干个子区间,然后对2)中每个已标注数据归一化后的模型打分分数与人工打分的分数进行求差,计算归一化后的模型打分分数落在每个子区间中的数据集对应的分数平均差值,计算方法为:
式中:xi表示第i个子区间中的数据集对应的分数平均差值,ni为归一化后的模型打分分数落在第i个子区间中的已标注数据个数;yij为落在第i个子区间中的第j个已标注数据归一化后的模型打分分数与人工打分分数差值;
4)根据3)中得到的xi值,按照xi值从大到小的顺序对所有子区间进行排序,得到排序最靠前的子区间;
5)获取用户进行文档检索时输入的查询词,并将查询词与文档库中的所有文档进行匹配,形成若干查询-文档对;
6)利用1)中训练好的排序模型对5)中的所有查询-文档对进行打分,按照打分结果向用户返回检索结果;
7)将6)中所有查询-文档对的打分结果进行最大最小归一化,归一化后的分数值区间与所述人工打分的分数值区间相同;
8)从6)中经过打分的所有查询-文档对中,筛选出未经过人工打分标记的查询-文档对,然后从中选取归一化后的模型打分分数落在所述排序最靠前的子区间中的查询-文档对,作为众包任务分发给工人进行人工打分标记;
9)收集得到众包任务的反馈结果,并将结果计入已标注数据中;
10)循环执行步骤1)~9),不断生成众包任务并进行标记后用于训练排序学习模型,直至达到终止条件。
2.如权利要求1所述的面向搜索排序的主动众包任务生成方法,其特征在于,所述的排序学习模型包括LambdaMART、AdaBoost。
3.如权利要求1所述的面向搜索排序的主动众包任务生成方法,其特征在于,所述的终止条件为已耗尽所有众包预算或1)中训练好的排序模型已达到预定性能要求。
4.如权利要求1所述的面向搜索排序的主动众包任务生成方法,其特征在于,所述的众包预算包括时间成本和工人成本。
5.如权利要求1所述的面向搜索排序的主动众包任务生成方法,其特征在于,所述众包任务的反馈结果中,每一条数据均包含对查询-文档对中查询词与文档相关程度的打分值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811566627.8/1.html,转载请声明来源钻瓜专利网。