[发明专利]一种考虑用户‑作者关系建模的个性化搜索方法有效

申请号：	201510889763.0	申请日：	2015-11-30
公开（公告）号：	CN105528419B	公开（公告）日：	2017-05-17
发明（设计）人：	姜元春;邵亮;刘业政;徐玉祥;梁世全	申请（专利权）人：	合肥工业大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	安徽省合肥新安专利代理有限责任公司34101	代理人：	陆丽莉,何梅生
地址：	230009 安***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种考虑用户作者关系建模个性化搜索方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种考虑用户-作者关系建模的个性化搜索方法，是应用于社交网络中，所述社交网络中包含搜索用户U以及所述搜索用户U所关注的对象；将所述搜索用户U所关注的对象记为所述搜索用户U的关注者集合F_U＝{f₁,f₂,…,f_j,…f_J}；f_j表示第j个关注者；则所述搜索用户U为所述第j个关注者f_j的粉丝；1≤j≤J；其特征是按如下步骤进行：

步骤1、获得主题词矩阵

步骤1.1、从所述社交网络上收集原始语料集D并进行分词处理，获得所述原始语料集D的词语集W；

步骤1.2、对所述词语集W进行去冗余处理，获得词典C＝{c₁,c₂,…,c_i,…,c_n}；c_i表示所述词典C中第i个词语；n表示词语的总数；1≤i≤n；

步骤1.3、对所述词语集W进行LDA模型训练，获得主题词矩阵ω_p,q表示第q个词语c_q在第p个主题上出现的概率；m表示主题的总数；1≤p≤m；

步骤2、获得所述搜索用户U的兴趣度θ_U及其词语集W_U的混合概率以及J个关注者的兴趣度Θ_F及其词语集W_U的混合概率Φ_F；

步骤2.1、从所述社交网络上收集所述搜索用户U的原始语料集以及所述关注者集合F_U的原始语料集并分别进行分词处理，获得所述搜索用户U的词语集，记为以及所述关注者集合F_U的词语集，记为表示所述搜索用户U的第l条原始语料；表示第j个关注者f_j的原始语料集；表示所述搜索用户U的词语集W_U中第k个词语；表示第j个关注者f_j的词语集；1≤k≤K；1≤l≤L；

步骤2.2、利用所述主题词矩阵对所述搜索用户U的词语集W_U进行训练，获得所述搜索用户U的词语集W_U中每个词语所对应的主题，以及所述搜索用户U对所有主题的兴趣度，记为表示所述搜索用户U对第p个主题的兴趣度；

步骤2.3、统计所述词语集W_U中每个词语在所对应的主题上出现的概率，记为表示所述搜索用户U的词语集W_U中第k个词语在其对应的主题上出现的概率；

步骤2.4、根据所述词语集W_U的概率在所述主题词矩阵中进行匹配，获得所述词语集W_U中每个词语在所述主题词矩阵中出现的概率表示所述搜索用户U的词语集W_U中第k个词语在所述主题词矩阵中出现的概率；

步骤2.5、利用式(1)所示的Jelinek-Mercer平滑方法获得所述词语集W_U中第k个词语的混合概率从而获得所述词语集W_U的混合概率

式(1)中，λ表示所述Jelinek-Mercer平滑方法的平滑参数；

步骤2.6、根据步骤2.2-步骤2.5，对所述关注者集合F_U的词语集W_F进行处理，获得J个关注者对每个主题的兴趣度，记为以及J个关注者的词语集的混合概率集表示第j个关注者f_j的所有主题的兴趣度集合；并有表示第j个关注者f_j对第p个主题的兴趣度；表示第j个关注者f_j的词语集中所有词语的混合概率；

步骤3、获得J个关注者F_U在m个主题上的交互率IN：

步骤3.1、将所述搜索用户U的原始语料集D_U与所述第j个关注者f_j的原始语料集进行交集处理，获得所述搜索用户U转发所述第j个关注者f_j的原始语料集，记为并进行分词处理，获得所述搜索用户U转发第j个关注者f_j的词语集，记为表示所述搜索用户U转发所述第j个关注者f_j的原始语料集中第z条原始语料；表示所述搜索用户U转发第j个关注者f_j的词语集中第t个词语；1≤t≤T；1≤z≤Z；

步骤3.2、统计所述搜索用户U转发第j个关注者f_j的词语集中第t个词语在第p个主题上出现的次数，记为从而获得T个词语在第p个主题上出现的次数，记为

步骤3.3，重复步骤3.2，从而获得所述搜索用户U转发第j个关注者f_j的词语集中T个词语在m个主题上出现的次数，记为

步骤3.4，重复步骤3.3，获得所述搜索用户U转发J个关注者F_U的词语集中的所有词语在m个主题上出现的次数，记为S＝{S₁,S₂,…,S_j,…,S_J}；

步骤3.5、利用式(2)获得第j个关注者f_j在第p个主题上的交互率从而获得第j个关注者f_j在m个主题上的交互率进而获得J个关注者F_U在m个主题上的交互率IN＝{IN₁,IN₂,…,IN_j,…,IN_J}：

$<mrow><msubsup><mi>IN</mi><mi>j</mi><mrow><mo>(</mo><mi>p</mi><mo>)</mo></mrow></msubsup><mo>=</mo><mfrac><msubsup><mi>S</mi><mi>j</mi><mrow><mo>(</mo><mi>p</mi><mo>)</mo></mrow></msubsup><mrow><munderover><mo>Σ</mo><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>J</mi></munderover><msubsup><mi>S</mi><mi>j</mi><mrow><mo>(</mo><mi>p</mi><mo>)</mo></mrow></msubsup></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow>$

步骤4、利用式(3)所示的KL散度来衡量所述搜索用户U对所有主题的兴趣度θ_U与所述第j个关注者f_j的所有主题的兴趣度集合之间的相似度从而获得所述搜索用户U对所有主题的兴趣度θ_U与J个关注者的所有主题的兴趣度集合之间的相似度

$<mrow><msubsup><mi>SIM</mi><mi>j</mi><mi>U</mi></msubsup><mo>=</mo><mfrac><mn>1</mn><mrow><mi>K</mi><mi>L</mi><mrow><mo>(</mo><msub><mi>θ</mi><mi>U</mi></msub><mo>|</mo><mo>|</mo><msubsup><mi>θ</mi><mi>j</mi><mi>F</mi></msubsup><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mrow>$

步骤5、利用式(4)获得第j个关注者f_j的热门度POP_j，从而获得J个关注者F_U的热门度POP_U＝{POP₁,POP₂,…,POP_j,…,POP_J}：

$<mrow><msub><mi>POP</mi><mi>j</mi></msub><mo>=</mo><mfrac><mrow><mi>l</mi><mi>o</mi><mi>g</mi><mrow><mo>(</mo><msub><mi>ρ</mi><mi>j</mi></msub><mo>)</mo></mrow></mrow><mrow><mi>l</mi><mi>o</mi><mi>g</mi><mrow><mo>(</mo><msub><mi>ρ</mi><mi>max</mi></msub><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>4</mn><mo>)</mo></mrow></mrow>$

式(4)中，ρ_j表示所述社交网络中第j个关注者f_j拥有的粉丝数量，ρ_max表示所述社交网络中拥有最大粉丝数用户的粉丝量；

步骤6、获得所述搜索用户U在m个主题下K个词语的评价模型

步骤6.1、利用式(5)获得第j个关注者f_j对第p个主题的评价值

$<mrow><msubsup><mi>Γ</mi><mi>p</mi><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow></msubsup><mo>=</mo><msup><mrow><mo>(</mo><msub><mi>σ</mi><mn>1</mn></msub><mo>,</mo><msub><mi>σ</mi><mn>2</mn></msub><mo>,</mo><msub><mi>σ</mi><mn>3</mn></msub><mo>,</mo><msub><mi>σ</mi><mn>4</mn></msub><mo>)</mo></mrow><mi>T</mi></msup><mfenced open = "(" close = ")"><mtable><mtr><mtd><msubsup><mi>θ</mi><mi>p</mi><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow></msubsup></mtd></mtr><mtr><mtd><mrow><msubsup><mi>IN</mi><mi>j</mi><mrow><mo>(</mo><mi>p</mi><mo>)</mo></mrow></msubsup></mrow></mtd></mtr><mtr><mtd><mrow><msubsup><mi>SIM</mi><mi>j</mi><mi>U</mi></msubsup></mrow></mtd></mtr><mtr><mtd><mrow><msub><mi>POP</mi><mi>j</mi></msub></mrow></mtd></mtr></mtable></mfenced><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>5</mn><mo>)</mo></mrow></mrow>$

式(5)中，σ₁,σ₂,σ₃,σ₄分别表示兴趣度的权重、交互率的权重、相似度的权重和热门度POP_j的权重；并有σ₁+σ₂+σ₃+σ₄＝1；

步骤6.2、利用式(6)获得第j个关注者f_j对m个主题的评价和Γ_j，从而获得J个关注者F_U对m个主题的评价和Γ_U＝{Γ₁,Γ₂,…,Γ_j,…,Γ_J}：

$<mrow><msub><mi>Γ</mi><mi>j</mi></msub><mo>=</mo><munderover><mo>Σ</mo><mrow><mi>p</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></munderover><msubsup><mi>Γ</mi><mi>p</mi><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow></msubsup><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>6</mn><mo>)</mo></mrow></mrow>$

步骤6.3、对所述J个关注者的评价和Γ_U进行降序排序，并选取前X个评价和，记为Γ′_U＝{Γ′₁,Γ′₂，…,Γ′_x,…,Γ′_X}；Γ′_x表示所述前X个评价和中第x个评价和；1≤x≤X；

步骤6.4、利用式(7)所示的Dirichlet先验平滑方法获得所述搜索用户U在第p个主题下对第k个词语的评价模型从而获得所述搜索用户U在第p个主题下K个词语的评价模型进而获得所述搜索用户U在m个主题下K个词语的评价模型

式(7)中，表示所述第x个关注者f_x的词语集中第k个词语在所述主题词矩阵中出现的概率；β表示所述Dirichlet先验平滑方法的平滑参数；

步骤7、获得由相似度和关注交叉率构成的搜索用户U与第g个作者a_g的交互率；

步骤7.1、所述搜索用户U在所述社交网络中提交搜索词组Que进行查询，返回G条原始语料和所述G条原始语料所对应的作者；将G条原始语料记为表示第g条原始语料；将所述G条原始语料所对应的作者记为集合A＝{a₁,a₂,…,a_g,…,a_G}；a_g表示第g个作者；将所述G个作者的所有原始语料集合记为表示第g个作者a_g的原始语料集；1≤g≤G；

步骤7.2、对所述G个作者A的原始语料集合D_A进行分词处理，获得所述G个作者A的词语集，记为表示所述第g个作者a_g的词语集；1≤e≤E；

步骤7.3、根据步骤2.2-步骤2.5，对所述作者集合A的词语集W_A进行处理，获得G个作者对每个主题的兴趣度，记为表示第g个作者a_g的所有主题的兴趣度集合；并有表示第g个作者a_g对第p个主题的兴趣度；

步骤7.4、利用式(8)所示的KL散度来衡量所述搜索用户U对所有主题的兴趣度θ_U与所述第g个作者a_g的所有主题的兴趣度集合之间的相似度从而获得所述搜索用户U对所有主题的兴趣度θ_U与G个作者的所有主题的兴趣度集合之间的相似度

$<mrow><msubsup><mi>SIM</mi><mi>g</mi><mrow><mo>′</mo><mi>U</mi></mrow></msubsup><mo>=</mo><mfrac><mn>1</mn><mrow><mi>K</mi><mi>L</mi><mrow><mo>(</mo><msub><mi>θ</mi><mi>U</mi></msub><mo>|</mo><mo>|</mo><msubsup><mi>θ</mi><mi>g</mi><mi>A</mi></msubsup><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>8</mn><mo>)</mo></mrow></mrow>$

步骤7.5、利用式(9)所示的Jaccard距离计算所述搜索用户U与第g个作者a_g的关注交叉率Jaccard(U,g)，从而获得所述搜索用户U与G个作者的关注交叉率：

$<mrow><mi>J</mi><mi>a</mi><mi>c</mi><mi>c</mi><mi>a</mi><mi>r</mi><mi>d</mi><mrow><mo>(</mo><mi>U</mi><mo>,</mo><mi>g</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mo>|</mo><mi>F</mi><mi>o</mi><mi>l</mi><mrow><mo>(</mo><mi>U</mi><mo>)</mo></mrow><mo>∩</mo><mi>F</mi><mi>o</mi><mi>l</mi><mrow><mo>(</mo><mi>g</mi><mo>)</mo></mrow><mo>|</mo></mrow><mrow><mo>|</mo><mi>F</mi><mi>o</mi><mi>l</mi><mrow><mo>(</mo><mi>U</mi><mo>)</mo></mrow><mo>∪</mo><mi>F</mi><mi>o</mi><mi>l</mi><mrow><mo>(</mo><mi>g</mi><mo>)</mo></mrow><mo>|</mo></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>9</mn><mo>)</mo></mrow></mrow>$

式(9)中，Fol(U)表示所述搜索用户U所关注的对象的集合；Fol(g)表示第g个作者a_g所关注的对象的集合；

步骤8、获得由影响力Inf(g)、传播能力Tra(g)、认证度PC(g)和权威度Auth(g)所构成的第g个作者a_g的评价指标；

步骤8.1、利用式(10)获得第g个作者a_g的影响力Inf(g)：

$<mrow><mi>I</mi><mi>n</mi><mi>f</mi><mrow><mo>(</mo><mi>g</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>i</mi><mi>n</mi><mi>p</mi><mrow><mo>(</mo><mi>g</mi><mo>)</mo></mrow></mrow><mrow><mi>i</mi><mi>n</mi><mi>p</mi><mrow><mo>(</mo><mi>g</mi><mo>)</mo></mrow><mo>+</mo><mi>o</mi><mi>u</mi><mi>t</mi><mrow><mo>(</mo><mi>g</mi><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>10</mn><mo>)</mo></mrow></mrow>$

式(10)中，inp(g)表示第g个作者a_g的粉丝数量；out(g)表示第g个作者a_g所关注的对象数量；

步骤8.2、利用式(11)获得第g个作者a_g的传播能力Tra(g)：

Tra(g)＝lg(1+ret(g)) (11)

式(11)中，ret(g)表示第g个作者a_g所有原始语料的被转发总数；

步骤8.3、判断所述第g个作者a_g是否为认证用户，若是认证用户，则令认证度PC(g)＝τ；否则，令认证度PC(g)＝0；

步骤8.4、利用所述主题词矩阵对第g条原始语料的词语集W_U进行训练，获得第g条原始语料的词语集中每个词语所对应的主题，以及第g条原始语料所对应的第p个主题分布η_Que(g,p)；并利用式(12)获得第g个作者a_g的权威度Auth(g)；

$<mrow><mi>A</mi><mi>u</mi><mi>t</mi><mi>h</mi><mrow><mo>(</mo><mi>g</mi><mo>)</mo></mrow><mo>=</mo><munderover><mo>Σ</mo><mrow><mi>p</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></munderover><msub><mi>η</mi><mrow><mi>Q</mi><mi>u</mi><mi>e</mi></mrow></msub><mrow><mo>(</mo><mi>g</mi><mo>,</mo><mi>p</mi><mo>)</mo></mrow><mo>×</mo><msubsup><mi>θ</mi><mi>p</mi><mrow><mo>(</mo><mi>g</mi><mo>)</mo></mrow></msubsup><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>12</mn><mo>)</mo></mrow></mrow>$

步骤9，获得由长度比值Len(g)、外联度Url(g)、标签值Has(g)和转发率Ret(g)所构成的第g条原始语料的评价指标；

步骤9.1、利用式(13)获得第g条原始语料的长度比值Len(g)：

$<mrow><mi>L</mi><mi>e</mi><mi>n</mi><mrow><mo>(</mo><mi>g</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>l</mi><mrow><mo>(</mo><mi>g</mi><mo>)</mo></mrow></mrow><mrow><munder><mrow><mi>m</mi><mi>a</mi><mi>x</mi></mrow><mrow><msup><mi>d</mi><mo>′</mo></msup><mo>&Element;</mo><msubsup><mi>D</mi><mi>g</mi><mi>A</mi></msubsup></mrow></munder><mi>l</mi><mrow><mo>(</mo><msup><mi>d</mi><mo>′</mo></msup><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>13</mn><mo>)</mo></mrow></mrow>$

式(13)中，l(g)表示第g条原始语料的词语总数；l(d′)表示第g个作者a_g的原始语料集中任意一条语料的词语总数；

步骤9.3、判断所述第g条原始语料是否含有链接，若含有链接，则令外联度Url(g)＝μ；否则，令外联度Url(g)＝0；

步骤9.4、判断所述第g条原始语料是否含有标签，若含有标签，则令标签值Has(g)＝ρ；否则，令标签值Has(g)＝0；

步骤9.5、利用式(14)获得第g条原始语料的转发率Ret(g)：

$<mrow><mi>Re</mi><mi>t</mi><mrow><mo>(</mo><mi>g</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>r</mi><mi>e</mi><mi>t</mi><mrow><mo>(</mo><mi>g</mi><mo>)</mo></mrow></mrow><mrow><munder><mrow><mi>m</mi><mi>a</mi><mi>x</mi></mrow><mrow><msup><mi>g</mi><mo>′</mo></msup><mo>&Element;</mo><msub><mi>D</mi><mrow><mi>Q</mi><mi>u</mi><mi>e</mi></mrow></msub></mrow></munder><mi>r</mi><mi>e</mi><mi>t</mi><mrow><mo>(</mo><msup><mi>g</mi><mo>′</mo></msup><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>14</mn><mo>)</mo></mrow></mrow>$

式(14)中，ret(g)表示第g条原始语料被转发的次数；ret(g')表示G条原始语料D_Que中任意一条原始语料被转发的次数；

步骤10、获得搜索结果；

步骤10.1、利用式(15)获得所述搜索用户U对第g条原始语料的第g个作者a_g的信任度ψ_U,g：

$<mrow><msub><mi>ψ</mi><mrow><mi>U</mi><mo>,</mo><mi>g</mi></mrow></msub><mo>=</mo><msubsup><mi>α</mi><mn>1</mn><mi>T</mi></msubsup><mfenced open = "(" close = ")"><mtable><mtr><mtd><mrow><mi>L</mi><mi>e</mi><mi>n</mi><mrow><mo>(</mo><mi>g</mi><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><mi>U</mi><mi>r</mi><mi>l</mi><mrow><mo>(</mo><mi>g</mi><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><mi>H</mi><mi>a</mi><mi>s</mi><mrow><mo>(</mo><mi>g</mi><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><mi>Re</mi><mi>t</mi><mrow><mo>(</mo><mi>g</mi><mo>)</mo></mrow></mrow></mtd></mtr></mtable></mfenced><msubsup><mi>α</mi><mn>2</mn><mi>T</mi></msubsup><mfenced open = "(" close = ")"><mtable><mtr><mtd><mrow><mi>I</mi><mi>n</mi><mi>f</mi><mrow><mo>(</mo><mi>g</mi><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><mi>T</mi><mi>r</mi><mi>a</mi><mrow><mo>(</mo><mi>g</mi><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><mi>P</mi><mi>C</mi><mrow><mo>(</mo><mi>g</mi><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><mi>A</mi><mi>u</mi><mi>t</mi><mi>h</mi><mrow><mo>(</mo><mi>g</mi><mo>)</mo></mrow></mrow></mtd></mtr></mtable></mfenced><msubsup><mi>α</mi><mn>3</mn><mi>T</mi></msubsup><mfenced open = "(" close = ")"><mtable><mtr><mtd><mrow><msubsup><mi>SIM</mi><mi>g</mi><mrow><mo>′</mo><mi>U</mi></mrow></msubsup></mrow></mtd></mtr><mtr><mtd><mrow><mi>J</mi><mi>a</mi><mi>c</mi><mi>c</mi><mi>a</mi><mi>r</mi><mi>d</mi><mrow><mo>(</mo><mi>U</mi><mo>,</mo><mi>g</mi><mo>)</mo></mrow></mrow></mtd></mtr></mtable></mfenced><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>15</mn><mo>)</mo></mrow></mrow>$

式(15)中，分别表示第g条原始语料评价指标的权重、第g个作者a_g评价指标的权重、搜索用户U与第g个作者a_g交互率的权重；0≤ψ_U,g≤1；

步骤10.2、利用式(16)获得第g条原始语料的综合评分从而获得G条原始语料的综合评分：

步骤10.3、对所述G条原始语料的综合评分进行降序排序，所获得的排序结果即为所述个性化搜索方法的搜索结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于合肥工业大学，未经合肥工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201510889763.0/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种考虑用户‑作者关系建模的个性化搜索方法有效

专利文献下载