[发明专利]一种基于Ranknet和Lambdamart算法的搜索排序方法在审
申请号: | 201910654609.3 | 申请日: | 2019-07-19 |
公开(公告)号: | CN110489616A | 公开(公告)日: | 2019-11-22 |
发明(设计)人: | 刘胜美;程睿 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F16/9038 | 分类号: | G06F16/9038 |
代理公司: | 32102 南京苏科专利代理有限责任公司 | 代理人: | 姚姣阳<国际申请>=<国际公布>=<进入 |
地址: | 210012 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 算法 迭代 排序 搜索 基础模型 模型效果 排序函数 排序模型 损失函数 原始模型 传统的 凸函数 主题性 准确率 输出 学习 全局 改进 | ||
一种基于Ranknet算法和LambdaMART算法的搜索排序方法,可以提高搜索排序的迭代效率和准确率,尤其是在主题性较强的领域。该方法在传统的LambdaMART算法的基础上对其进行改进,首先将Ranknet算法作为基础模型,学习一个排序函数,再将函数的输出作为LambdaMART的初始函数,最终生成排序模型。此方法可以有效改善损失函数为凸函数时,为达到全局的最小值,学习率必须很小,迭代次数必须很大的问题,而且在减少迭代次数的情况下,模型效果却可以优于原始模型。
技术领域
本发明属于人工智能学习技术领域,具体涉及一种基于Ranknet和Lambdamart算法的搜索排序方法。
背景技术
随着计算机与网络科技水平的不断提高,互联网产生的数据量呈现出爆发式的增长,我们需要花费越来越多的精力去获取想要的信息,人们如何在信息大爆炸的时代里准确而高效的获取信息是值得研究的。传统的按照相关度排序和按照重要性排序只针对少数的简单特征,无法挖掘复杂情况下特征间的关联性,导致获取信息的准确率和效率低下。排序学习能够充分发现表征复杂信息的众多特征之间的关联性。近年中的研究发现,基于树的机器学习模型,如GBDT,结合集成学习,对于建立“排序学习”框架的搜索排序算法十分有效,Lambdamart更是其中的佼佼者,被认为是最有效的方法之一,在不同的领域已经被证明是解决问题的一种有效手段。
发明内容
本发明所要解决的技术问题是克服现有技术的不足,提供一种基于Ranknet和Lambdamart算法的搜索排序方法,将Ranknet算法作为基础模型,学习一个排序函数,再将函数的输出作为LambdaMART的初始函数,最终生成排序模型,可以有效提高搜索排序的迭代效率和准确率。
本发明提供一种基于Ranknet和Lambdamart算法的搜索排序方法,包括如下步骤:
步骤S1、由Rankbet算法训练出基本模型,首先训练一个打分函数,根据打分函数计算文档的得分,通过文档的得分情况计算文档的偏序概率和真实概率,采用交叉熵作为损失函数来衡量偏序概率和真实概率的拟合程度,从而获取所有文档的总代价函数;
步骤S2、计算每个文档的梯度lambda和偏导,针对步骤S1中的损失函数对排序函数的偏导求导,再利用梯度下降法获取最佳参数;
步骤S3、利用Lambdamart算法训练回归树;
步骤S4、将步骤S2中获取的梯度作用于Lambdamart算法的GBDT上,作为训练模型的拟合对象,再根据牛顿法计算训练树的叶子节点值;
步骤S5、更新模型,根据学习率计算每个文档的得分。
作为本发明的进一步技术方案,步骤S1中,训练的打分函数为s=f(x;w),根据打分函数计算文档xi和xj为si=f(xi;w),sj=f(xj;w);根据得分计算二者的偏序概率,偏序概率为
Pij为第i个样本排在第j个样本前面的概率,si和sj为文档xi和xj的得分,其真实概率为
采用交叉熵作为损失函数来衡量偏序概率pij对真实概率的拟合程度,损失函数为经简化为则可知所有文档对的总代价函数为其中,I表示所有文档对的集合,且每个文档对仅包含一次。
进一步的,步骤S2中,针对步骤S1中的损失函数Cij,对排序函数中的ωk求导,然后利用梯度下降法来求得最佳参数其中,η为步长,代价C延负梯度方向变化对继续分解,则由于令把和带入得,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910654609.3/2.html,转载请声明来源钻瓜专利网。