[发明专利]基于查询点击图的检索推荐模型优化在审
申请号: | 201610390608.9 | 申请日: | 2016-06-03 |
公开(公告)号: | CN106445989A | 公开(公告)日: | 2017-02-22 |
发明(设计)人: | 贾海龙 | 申请(专利权)人: | 新乡学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙)11350 | 代理人: | 汤东风 |
地址: | 453000 河南*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于查询点击图的检索推荐模型优化,与现有技术相比,本发明首先对用户的搜索行为及意图进行了分析,并对搜索行为的数据提取方法和表示进行了研究,通过对查询会话的深入挖掘,提出了基于用户查询日志的查询词关联方法。其次,重点对传统查询点击二分图推荐模型的理论及计算方法进行了分析。由于查询点击二分图的结构简单、实用性强,并且实施过程不依赖于检索词与网页相似度计算,因此被广泛应用于搜索引擎中。本发明提出了利用点击频率代替点击次数来构建二分图中边的权重,这样可以避免权重不被过多的无效点击而偏置,使推荐系统尽可能达到稳定状态。最后,通过实验及数据分析从三个方面证明了改进模型的优越性。 | ||
搜索关键词: | 基于 查询 点击 检索 推荐 模型 优化 | ||
【主权项】:
一种基于查询点击图的检索推荐模型优化,其特征在于:包括优化目标构建、权重值重构和推荐算法优化;所述优化目标构建:根据上述内容分析可知,搜索结果中点击最多的页面是查询最主要的搜索结果;我们先对于查询点击二分图中元素的关系建立形式化描述:定义1令查询点击二分图G={Q∪U,E,W},其中Q表示查询会话节点集合,U表示查询结果网页集合,E表示图中边的集合,W表示边的权重集合;则对于查询点击二分图中边eij的权重Wij构建方法如下:查询点击二分图的优化目标:公式(1)表示:当查询会话节点为qi(qi∈Q)时,二值优化变量cij表示查询点击图是否选择了边eij,而优化目标的损失函数是最大化的选择边的权重和,约束条件是保留边的查询与网页关联权重为最大,即cij=1时,wij≥wik且wij≥wkj;满足此目标时,表示查询点击图中保留了尽量多的关于查询和点击的最大次数;优化目标公式(1)能够对一个查询或者网页选择出多个相同的最大权重边;若引入每个节点的度d(i)=∑jδ(i,j)且d(j)=∑iδ(i,j),则公式(1)等价于公式(2),其中δ(i,j)代表查询节点qi与网页节点ui之间是否存在边(存在为1,否则为0);查询点击核心图的优化目标等价形式为:在优化目标(2)的约束中,显式的允许查询点击核心图中的一个查询节点同时连接到多个网页节点,同时也允许查询点击核心图中的一个网页节点连接多个查询节点;所述权重值重构:如定义1中,查询点击二分图G={Q∪U,E,W},首先,设有aij个用户进行了点击操作;此时,传统构建查询与网页连接边的权重W是用查询qi对应的网页uj的点击次数cij表示,即wij=cij;经过分析我们发现,用户在浏览搜索结果时,有的用户比较活跃,点击次数多,有的点击次数少,由于用户活跃度的差异,导致点击数量不能真正反映查询与网页之间的关联度;为了避免这种偏置现象的出现,我们引入用户频数来代替点击次数,即wij=aij;其次,对于同一个查询,用户点击了两个网页u1和u2,并且点击数量相等,如果u1还被更多地查询点击过,则说明发生在u1上的点击没有u2重要,也就是u1与查询相关度低;因此,可以对每个网页建立逆查询频率,即:式中N表示查询的数量,Nq表示点击到该网页的查询数量;此时,令wij=cij·iqf(u);基于此,还可以利用转移概率理论构建权重;首先计算以下两个概率值:(1)查询会话转移到相关网页的概率:(2)相关网页到查询会话的转移概率:由于转移概率具有不对称性,即P(uj|qi)≠P(qi|uj),因此可以采用线性插值或乘积的方法来均衡权重的对称性,如令wij=α·P(qi|uj)+(1‑α)P(uj|qi)其中α为可调节参数),或者令wij=P(qi|uj)·P(uj|qi);所述推荐算法优化:(1)基础模型:最基本的查询推荐方法是根据查询点击二分图中具有共现点击的查询进行推荐;将这一思想进一步引申,即具有相同点击的查询是相似的,我们要通过随机游走方法将该相似性进行传播;也就是从初始查询出发,在查询点击二分图上根据点击的概率游走到相邻查询,并从相邻查询继续游走;以此迭代,直至结束;随机游走模型有前向和后向两种游走方式;两种游走方式可以用同一组定义来表示;同样,将查询点击二分图定义为G={Q∪U,E,W},令M表示查询的节点数,N表示网页节点数,wij表示查询qi与网页uj的点击权重;构建概率转移矩阵 A=(M+N)×(M+N),则节点转移概率A[i,j]=P(qj|qi),再引入自转移概率s,则新的转移概率P(vj|vi)定义如公式(6);根据给定的初始节点vi,可以进行前向或后向的随机游走迭代;不同之处是前向游走有可能得到查询q在查询点击二分图上最有可能到达的查询q',考虑了初始节点vi游走到其它节点的概率,即:而后向游走可能到达初始查询节点q,考虑了从其它节点游走到初始节点vi的概率,即:(2)问题发现:在上述算法基础上设置参数n和s,n的值表示引入二分图中的节点数量;s表示自转移概率,即在转移过程中不要很快游走到其它节点,将s值设置为0.9;在处理查询推荐时,n的值越大,表示想引入越多的节点进行游走,甚至会包括整个图内所有节点,这样会带来“推荐主题漂移”问题,就是游走到达的查询与用户查询关联度不高;具体存在以下问题:对于向前游走,经过数次迭代之后,转移概率被传播到较为流行的查询上,导致推荐的查询不准确或者不相关;比如查询“人物周刊”,到最后可能推荐“环球人物”和“时代人物”等较流行的刊物;当采用向后游走传播时,概率会趋向均一化,会推荐出拼写有误或者频率较低的查询;传统的推荐模型不能有效区分不同意图的查询,随机游走模型中的查询推荐是利用概率的相似传播进行,会导致部分有紧密关联或非常相似的查询被推荐在最前,使得推荐结果较为单一,降低了推荐的多元化;(3)算法优化:为了解决上述传统随机游走推荐模型存在的问题,提出基于查询点击图的随机游走推荐模型,将传统推荐模型中对描述不精确和没有代表性的推荐进行剪枝;根据随机游走的迭代算法,可以得到查询‑网页节点的概率分布情况,此时可以为每个网页挑选对应查询点击图中的查询推荐给用户;基于查询点击图的随机游走模型推荐算法:前向和后向的随机游走算法收敛过程如下:在前向随机游走时,采用随机过程中的马尔科夫链的平稳分布进行转移概率矩阵收敛;给定转移矩阵A,如果存在迭代次数n,当An[i,j]>0时,则由所有节点构成的马尔科夫链是齐次非周期且不可约,具有唯一的平稳分布性;此时前向随机游走迭代模型可以转变为vT(n+1)=vT(n)·A=v(0)·An;当An趋向平稳分布时候A[i,j]=πj,其中每个阶段平稳分布概率是πT=[π1,π2,...,πM+N],所以limn→∞v(n)=π,易知当初始概率v(0)为概率分布时,vT(n)·A必定是平稳概率分布;在后向随机游走时,最初提出后向随机游走模型的文献中也没有给出收敛性证明;同样我们假设随机矩阵A稳定分布,易知即使初始概率v(0)为概率分布,A·v(n)也不一定是概率分布;因此在迭代过程中归一化向量v,令因为概率转移矩阵A的行和为1,且A中所有转移概率均大于0,当初始概率v(0)为均一分布时,迭代过程按照概率转移矩阵A的列进行概率归一化处理,即norm(A·v(n))=v(0),此时算法会不断得到均一化的分布概率;如果在整个查询点击二分图是强连通的情况下,任意两个节点是互通的,则迭代过程中向量v的每一项都会大于零,进而不断迭代会将v归一化;形式化为:迭代过程为左侧乘矩阵A,因此第n次迭代后值为:如果A平稳分布,那么An=[π1,π2,...,πM+1],此时是与vT同长度的行向量,因为Z是均一化因子,如果v(0)是概率分布,则是均匀分布,系统熵最大的初发状态就是其均匀分布时候的状态,后向随机游走模型本质就是想回到系统最原始的出发状态;而前向随机游走模型是系统通过不断迭代往前扩展,最终找到稳定状态;在查询推荐应用中,当整个图中具备较多点击的查询节点排在优先位置时,也就是前向随机游走模型得到的平稳状态;而当图中所有节点分布概率相同时,后向随机游走模型达到平稳分布;因此,在推荐过程中,均一概率和热门节点矩阵概率收敛不利于查询推荐;提前设置合适的迭代次数和自转移概率,如n=10,s=0.9,以此控制图中随机游走的范围。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新乡学院,未经新乡学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610390608.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种大数据的智能处理方法和系统
- 下一篇:事件本体构建方法