[发明专利]一种考虑用户‑作者关系建模的个性化搜索方法有效
申请号: | 201510889763.0 | 申请日: | 2015-11-30 |
公开(公告)号: | CN105528419B | 公开(公告)日: | 2017-05-17 |
发明(设计)人: | 姜元春;邵亮;刘业政;徐玉祥;梁世全 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 安徽省合肥新安专利代理有限责任公司34101 | 代理人: | 陆丽莉,何梅生 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种考虑用户‑作者关系建模的个性化搜索方法,包括如下步骤1从社交网络上收集原始语料集进行LDA模型训练获得主题词矩阵;2获得搜索用户及其关注者的兴趣度及词语集的混合概率;3获得关注者在主题上的交互率;4搜索用户对所有主题的兴趣度与所述关注者的所有主题的兴趣度集合之间的相似度,关注者的热门度;5获得搜索用户的评价模型;6由相似度和关注交叉率构成的搜索用户与作者的交互率;7得由影响力、传播能力、认证度和权威度所构成的作者评价指标;8由长度比值、外联度、标签值和转发率所构成的原始语料的评价指标,从而获得搜索结果。本发明能有效利用文本信息和用户与作者的关系信息,从而对搜索结果进行个性化。 | ||
搜索关键词: | 一种 考虑 用户 作者 关系 建模 个性化 搜索 方法 | ||
【主权项】:
一种考虑用户‑作者关系建模的个性化搜索方法,是应用于社交网络中,所述社交网络中包含搜索用户U以及所述搜索用户U所关注的对象;将所述搜索用户U所关注的对象记为所述搜索用户U的关注者集合FU={f1,f2,…,fj,…fJ};fj表示第j个关注者;则所述搜索用户U为所述第j个关注者fj的粉丝;1≤j≤J;其特征是按如下步骤进行:步骤1、获得主题词矩阵步骤1.1、从所述社交网络上收集原始语料集D并进行分词处理,获得所述原始语料集D的词语集W;步骤1.2、对所述词语集W进行去冗余处理,获得词典C={c1,c2,…,ci,…,cn};ci表示所述词典C中第i个词语;n表示词语的总数;1≤i≤n;步骤1.3、对所述词语集W进行LDA模型训练,获得主题词矩阵ωp,q表示第q个词语cq在第p个主题上出现的概率;m表示主题的总数;1≤p≤m;步骤2、获得所述搜索用户U的兴趣度θU及其词语集WU的混合概率以及J个关注者的兴趣度ΘF及其词语集WU的混合概率ΦF;步骤2.1、从所述社交网络上收集所述搜索用户U的原始语料集以及所述关注者集合FU的原始语料集并分别进行分词处理,获得所述搜索用户U的词语集,记为以及所述关注者集合FU的词语集,记为表示所述搜索用户U的第l条原始语料;表示第j个关注者fj的原始语料集;表示所述搜索用户U的词语集WU中第k个词语;表示第j个关注者fj的词语集;1≤k≤K;1≤l≤L;步骤2.2、利用所述主题词矩阵对所述搜索用户U的词语集WU进行训练,获得所述搜索用户U的词语集WU中每个词语所对应的主题,以及所述搜索用户U对所有主题的兴趣度,记为表示所述搜索用户U对第p个主题的兴趣度;步骤2.3、统计所述词语集WU中每个词语在所对应的主题上出现的概率,记为表示所述搜索用户U的词语集WU中第k个词语在其对应的主题上出现的概率;步骤2.4、根据所述词语集WU的概率在所述主题词矩阵中进行匹配,获得所述词语集WU中每个词语在所述主题词矩阵中出现的概率表示所述搜索用户U的词语集WU中第k个词语在所述主题词矩阵中出现的概率;步骤2.5、利用式(1)所示的Jelinek‑Mercer平滑方法获得所述词语集WU中第k个词语的混合概率从而获得所述词语集WU的混合概率式(1)中,λ表示所述Jelinek‑Mercer平滑方法的平滑参数;步骤2.6、根据步骤2.2‑步骤2.5,对所述关注者集合FU的词语集WF进行处理,获得J个关注者对每个主题的兴趣度,记为以及J个关注者的词语集的混合概率集表示第j个关注者fj的所有主题的兴趣度集合;并有表示第j个关注者fj对第p个主题的兴趣度;表示第j个关注者fj的词语集中所有词语的混合概率;步骤3、获得J个关注者FU在m个主题上的交互率IN:步骤3.1、将所述搜索用户U的原始语料集DU与所述第j个关注者fj的原始语料集进行交集处理,获得所述搜索用户U转发所述第j个关注者fj的原始语料集,记为并进行分词处理,获得所述搜索用户U转发第j个关注者fj的词语集,记为表示所述搜索用户U转发所述第j个关注者fj的原始语料集中第z条原始语料;表示所述搜索用户U转发第j个关注者fj的词语集中第t个词语;1≤t≤T;1≤z≤Z;步骤3.2、统计所述搜索用户U转发第j个关注者fj的词语集中第t个词语在第p个主题上出现的次数,记为从而获得T个词语在第p个主题上出现的次数,记为步骤3.3,重复步骤3.2,从而获得所述搜索用户U转发第j个关注者fj的词语集中T个词语在m个主题上出现的次数,记为步骤3.4,重复步骤3.3,获得所述搜索用户U转发J个关注者FU的词语集中的所有词语在m个主题上出现的次数,记为S={S1,S2,…,Sj,…,SJ};步骤3.5、利用式(2)获得第j个关注者fj在第p个主题上的交互率从而获得第j个关注者fj在m个主题上的交互率进而获得J个关注者FU在m个主题上的交互率IN={IN1,IN2,…,INj,…,INJ}:INj(p)=Sj(p)Σj=1JSj(p)---(2)]]>步骤4、利用式(3)所示的KL散度来衡量所述搜索用户U对所有主题的兴趣度θU与所述第j个关注者fj的所有主题的兴趣度集合之间的相似度从而获得所述搜索用户U对所有主题的兴趣度θU与J个关注者的所有主题的兴趣度集合之间的相似度SIMjU=1KL(θU||θjF)---(3)]]>步骤5、利用式(4)获得第j个关注者fj的热门度POPj,从而获得J个关注者FU的热门度POPU={POP1,POP2,…,POPj,…,POPJ}:POPj=log(ρj)log(ρmax)---(4)]]>式(4)中,ρj表示所述社交网络中第j个关注者fj拥有的粉丝数量,ρmax表示所述社交网络中拥有最大粉丝数用户的粉丝量;步骤6、获得所述搜索用户U在m个主题下K个词语的评价模型步骤6.1、利用式(5)获得第j个关注者fj对第p个主题的评价值Γp(j)=(σ1,σ2,σ3,σ4)Tθp(j)INj(p)SIMjUPOPj---(5)]]>式(5)中,σ1,σ2,σ3,σ4分别表示兴趣度的权重、交互率的权重、相似度的权重和热门度POPj的权重;并有σ1+σ2+σ3+σ4=1;步骤6.2、利用式(6)获得第j个关注者fj对m个主题的评价和Γj,从而获得J个关注者FU对m个主题的评价和ΓU={Γ1,Γ2,…,Γj,…,ΓJ}:Γj=Σp=1mΓp(j)---(6)]]>步骤6.3、对所述J个关注者的评价和ΓU进行降序排序,并选取前X个评价和,记为Γ′U={Γ′1,Γ′2,…,Γ′x,…,Γ′X};Γ′x表示所述前X个评价和中第x个评价和;1≤x≤X;步骤6.4、利用式(7)所示的Dirichlet先验平滑方法获得所述搜索用户U在第p个主题下对第k个词语的评价模型从而获得所述搜索用户U在第p个主题下K个词语的评价模型进而获得所述搜索用户U在m个主题下K个词语的评价模型式(7)中,表示所述第x个关注者fx的词语集中第k个词语在所述主题词矩阵中出现的概率;β表示所述Dirichlet先验平滑方法的平滑参数;步骤7、获得由相似度和关注交叉率构成的搜索用户U与第g个作者ag的交互率;步骤7.1、所述搜索用户U在所述社交网络中提交搜索词组Que进行查询,返回G条原始语料和所述G条原始语料所对应的作者;将G条原始语料记为表示第g条原始语料;将所述G条原始语料所对应的作者记为集合A={a1,a2,…,ag,…,aG};ag表示第g个作者;将所述G个作者的所有原始语料集合记为表示第g个作者ag的原始语料集;1≤g≤G;步骤7.2、对所述G个作者A的原始语料集合DA进行分词处理,获得所述G个作者A的词语集,记为表示所述第g个作者ag的词语集;1≤e≤E;步骤7.3、根据步骤2.2‑步骤2.5,对所述作者集合A的词语集WA进行处理,获得G个作者对每个主题的兴趣度,记为表示第g个作者ag的所有主题的兴趣度集合;并有表示第g个作者ag对第p个主题的兴趣度;步骤7.4、利用式(8)所示的KL散度来衡量所述搜索用户U对所有主题的兴趣度θU与所述第g个作者ag的所有主题的兴趣度集合之间的相似度从而获得所述搜索用户U对所有主题的兴趣度θU与G个作者的所有主题的兴趣度集合之间的相似度SIMg′U=1KL(θU||θgA)---(8)]]>步骤7.5、利用式(9)所示的Jaccard距离计算所述搜索用户U与第g个作者ag的关注交叉率Jaccard(U,g),从而获得所述搜索用户U与G个作者的关注交叉率:Jaccard(U,g)=|Fol(U)∩Fol(g)||Fol(U)∪Fol(g)|---(9)]]>式(9)中,Fol(U)表示所述搜索用户U所关注的对象的集合;Fol(g)表示第g个作者ag所关注的对象的集合;步骤8、获得由影响力Inf(g)、传播能力Tra(g)、认证度PC(g)和权威度Auth(g)所构成的第g个作者ag的评价指标;步骤8.1、利用式(10)获得第g个作者ag的影响力Inf(g):Inf(g)=inp(g)inp(g)+out(g)---(10)]]>式(10)中,inp(g)表示第g个作者ag的粉丝数量;out(g)表示第g个作者ag所关注的对象数量;步骤8.2、利用式(11)获得第g个作者ag的传播能力Tra(g):Tra(g)=lg(1+ret(g)) (11)式(11)中,ret(g)表示第g个作者ag所有原始语料的被转发总数;步骤8.3、判断所述第g个作者ag是否为认证用户,若是认证用户,则令认证度PC(g)=τ;否则,令认证度PC(g)=0;步骤8.4、利用所述主题词矩阵对第g条原始语料的词语集WU进行训练,获得第g条原始语料的词语集中每个词语所对应的主题,以及第g条原始语料所对应的第p个主题分布ηQue(g,p);并利用式(12)获得第g个作者ag的权威度Auth(g);Auth(g)=Σp=1mηQue(g,p)×θp(g)---(12)]]>步骤9,获得由长度比值Len(g)、外联度Url(g)、标签值Has(g)和转发率Ret(g)所构成的第g条原始语料的评价指标;步骤9.1、利用式(13)获得第g条原始语料的长度比值Len(g):Len(g)=l(g)maxd′∈DgAl(d′)---(13)]]>式(13)中,l(g)表示第g条原始语料的词语总数;l(d′)表示第g个作者ag的原始语料集中任意一条语料的词语总数;步骤9.3、判断所述第g条原始语料是否含有链接,若含有链接,则令外联度Url(g)=μ;否则,令外联度Url(g)=0;步骤9.4、判断所述第g条原始语料是否含有标签,若含有标签,则令标签值Has(g)=ρ;否则,令标签值Has(g)=0;步骤9.5、利用式(14)获得第g条原始语料的转发率Ret(g):Ret(g)=ret(g)maxg′∈DQueret(g′)---(14)]]>式(14)中,ret(g)表示第g条原始语料被转发的次数;ret(g')表示G条原始语料DQue中任意一条原始语料被转发的次数;步骤10、获得搜索结果;步骤10.1、利用式(15)获得所述搜索用户U对第g条原始语料的第g个作者ag的信任度ψU,g:ψU,g=α1TLen(g)Url(g)Has(g)Ret(g)α2TInf(g)Tra(g)PC(g)Auth(g)α3TSIMg′UJaccard(U,g)---(15)]]>式(15)中,分别表示第g条原始语料评价指标的权重、第g个作者ag评价指标的权重、搜索用户U与第g个作者ag交互率的权重;0≤ψU,g≤1;步骤10.2、利用式(16)获得第g条原始语料的综合评分从而获得G条原始语料的综合评分:步骤10.3、对所述G条原始语料的综合评分进行降序排序,所获得的排序结果即为所述个性化搜索方法的搜索结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510889763.0/,转载请声明来源钻瓜专利网。
- 上一篇:浏览器标签内的页面切换方法及装置
- 下一篇:目标数据识别方法及装置