[发明专利]一种基于搜索关键字的用户兴趣图序列动态管理方法在审
申请号: | 202010277273.6 | 申请日: | 2020-04-10 |
公开(公告)号: | CN111488493A | 公开(公告)日: | 2020-08-04 |
发明(设计)人: | 赵靓;冯铃;喻丰 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F16/901 | 分类号: | G06F16/901;G06F16/9535 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 何会侠 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 搜索 关键字 用户 兴趣 序列 动态 管理 方法 | ||
1.一种基于搜索关键字的用户兴趣图序列动态管理方法,其特征在于:步骤如下:
步骤1:收集用户关键字搜索历史,经得用户知情授权情况下,通过爬虫抓取用户的搜索关键字以及隐式交互行为,包括搜索时长、搜索结果页面浏览数目以及结果页面平均浏览时长;
步骤2:以图序列模型对用户搜索行为静态建模,具体如下:
图序列模型由时间轴上排列的无向完全图组成,每个无向完全图G=(N,E,[Ts,Te])对应用户的一个搜索区间,若两个相邻的搜索间隔时间不超过30分钟,则同处一个搜索区间;其中,N为节点集合,每个节点对应该搜索区间中的一个搜索关键字,作为潜在用户兴趣;E为边集合,代表搜索区间中任意两节点之间的关联强度;[Ts,Te]表示该搜索区间的持续时间段,分别取搜索区间中第一个搜索的开始时间以及最晚结束的搜索的结束时间作为Ts和Te;
对于每个搜索节点,综合考虑搜索时长、结果页面浏览数目以及结果页面平均浏览时长对该搜索节点进行量化,节点权重代表用户当前对该关键字的兴趣程度,取值为[0,1],计算为
其中,w表示节点权重,dur,cnum,cdur分别代表该节点对应的搜索时长、用户结果页面浏览数目以及结果页面平均浏览时长,采用sigmoid函数即f(x,hv)对上述异构数据进行数值化映射,对应相应的sigmoid映射参数,其中i=1,2,3;显然,用户对该搜索关键字的兴趣程度与搜索时长、结果页面浏览数目及平均浏览时长成正比,w值越大,表示用户对其兴趣程度越大;
对于联结任意两搜索节点的边,其权重取值为[0,1],代表两搜索的关联程度,由两搜索关键字的语义关联及时间关联共同决定,语义相似度越高,两搜索间隔时间越近,则这条边上的权重越大,
其中,si,sj为两个搜索节点,RSim(si,sj),TSim(si,sj)∈[0,1]分别代表两个搜索节点之间的语义相似度与时间相似度;
至此,保留用户所有自然交互细节的前提下,用户的搜索历史以搜索区间为单位映射成为独立的无向完全图,所有的搜索区间在时间轴上线性排列,构成了图序列模型;
步骤3:基于守恒规则的动态兴趣演化,反向更新前序图序列,自适应过滤噪音搜索,凸显真实用户兴趣,具体如下:
给定当前新的搜索区间Gn中的搜索节点Gn.snew,假设前序搜索区间Go中的搜索节点Go.sold在关键字上与其部分或全部匹配,简称为匹配节点,Go.sold受相同或相似搜索关键字的影响将得到加强,其权重增量计算为
其中,RSim(Go.sold,Gn.snew)为两搜索节点的语义相似度,Gn.snew.w,Go.sold.w分别为两搜索节点当前权重,Dist(Go,Gn)=(Gn.Ts-Go.Te)/30表示两搜索节点之间的绝对时间距离,以搜索区间起始时间衡量;
Go.sold得到强化的同时,Go中其余非匹配节点将总体牺牲等量的权重以满足守恒原则;受两质点间引力公式启发,任意两搜索节点s,s′∈Go之间的引力关联计算为F(s,s′)=g*s.w*s′.w*ω2(s,s′),其中g为引力关联因子,w为节点权重,ω(s,s′)为两节点之间边的权重;
令SU表示Go中不与Gn.Snew关键字匹配的节点集合,对于任一非匹配节点Go.s∈SU,其应当贡献给Go.sold的权重为
TLoss(Go.s,Go.sold,Gn.snew)=min(loss(Go.s,Go.sold,Gn.snew),Go.s.w)
其中,Go.s.w为非匹配节点Go.s的权重,loss(Go.s,Go.sold,Gn.snew)为非匹配节点Go.s理论上应有的权重损失函数,F(Go.s,Go.sold)为两搜索节点间的引力关联,Δ(Go.sold,Gn.snew)为匹配节点Go.sold的权重增量;
至此,经动态演化实现前序图序列中节点权重的转移、重新分配之后,搜索节点中的匹配节点Go.sm与非匹配节点Go.s∈SU的权重分别变为
Go.sm.w=min(1,Go.sm.w+Δ(Go.sm,Gn.snew))
Go.s.w=max(0,Go.s.w-TLoss(Go.s,Go.sm,Gn.snew))
显然,若非匹配节点在动态演化过程中贡献了其所有的权重,那么该非匹配节点作为噪音搜索将从搜索区间中删去;当搜索区间中仅剩一个节点时,该节点已然成为该区间中最突出的节点,代表用户在该区间中的真实兴趣,即使其匹配Gn.snew,也不再对其进行加强。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010277273.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种获取互联网金融广告的方法
- 下一篇:燃气锅炉网格在有限元分析中的设计方法