[发明专利]一种基于点击特征重构的检索结果排序方法有效
申请号: | 201810057751.5 | 申请日: | 2018-01-22 |
公开(公告)号: | CN108460086B | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 杨震;李成 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F16/338 | 分类号: | G06F16/338;G06F16/335;G06F17/16 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 点击 特征 检索 结果 排序 方法 | ||
1.一种基于点击特征重构的检索结果排序方法,其特征在于,包括以下步骤:
步骤(1)获取学术搜索数据集
获取学术搜索数据集,数据集需要有用户点击文档的特征,即用户点击次数,并且有文档在查询下的得分标签;
步骤(2)数据清洗部分
选取了一个查询下至少有20篇文档出现在别的查询下的数据;
步骤(3)构建点击矩阵
构建点击矩阵G,其中每一行代表的是一个唯一的查询,每一列代表的是一个唯一的文档,G矩阵是一个稀疏矩阵,它的元素(m,n)的值代表的是第m个查询下n个文档被用户点击的次数;
步骤(4)点击特征重构
使用螺旋非负矩阵分解算法B-NMF对点击矩阵进行重构;
步骤(4.1)矩阵分块
算法首先将原矩阵G分块成2个子矩阵X和Y,之后分别对两个分块矩阵进行分解,得到X的分解矩阵W和Hh,以及Y的分解矩阵Wm和H,最后利用X的分解项W和Y的分解项H对原矩阵G进行重构,得到重构矩阵Z;B-NMF分块了四次,最后将四次结果融合起来;
分块的变换公式为(1):
X=GS,Y=RG (1)
其中R和S是一个对角矩阵和一个零矩阵拼接的矩阵,目的是对原始矩阵G进行分块,具体形式如下:
步骤(4.2)矩阵分解
通过公式(2),将原始G矩阵变换为特征增强过的矩阵E:
E(m,n)=f[G(m,n)] (2)
这里f函数为平方函数表现出了最优的性能;在分块过程中,E矩阵同样要经过上面的四次分块过程变换,变换后得到矩阵P和矩阵Q;
为了保持分解过程中块间数据的一致性,加入了Wm=RW,Hh=HS两项的正则项,使得在优化过程中X和Y保持数据的一致性;
同质性系数项:对两个查询或者两个文档来说,他们在一个空间中向量的距离越近,表示他们之间越相似,而相似的两个查询下,文档越相似,那么它们被点击的次数也应该越相似;同质性系数项定义为公式(3):
其中n表示查询的个数,U向量代表的是查询矩阵,也就是分解出的矩阵W,i和j表示的是U矩阵中的某两行,ε(i,j)表示两个查询之间的相似性,它的值越大,表示两个查询越相似,反之,值越小,表示两个查询越不相似,它通过求两个查询的余弦相似度得到;通过推导得到Tr(UTLU),其中L=D–Z是拉普拉斯矩阵,D是同一个对角矩阵,对角线上的元素Z是n个样本之间的同质性系数组成的矩阵,定义为:
因此,建模的最终优化目标为公式(4):
其中α,β,γ表示对正则项约束程度调节参数,λ1和λ2分别是对查询和文档两个同质性系数项的约束,L1和L2分别是查询和文档两个同质性系数项的拉普拉斯矩阵;
步骤(4.3)矩阵重构
G矩阵分解完成后会得到四个重构的矩阵Zi,然后采用将四次结果平均得到最终的重构矩阵Z;
步骤(5)Learning to rank排序
通过将重构完成得到的点击矩阵与原数据进行对接,把重构完成的点击特征代替原来的点击特征,进行模型的训练和调优。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810057751.5/1.html,转载请声明来源钻瓜专利网。