[发明专利]一种考虑用户‑作者关系建模的个性化搜索方法有效

专利信息
申请号: 201510889763.0 申请日: 2015-11-30
公开(公告)号: CN105528419B 公开(公告)日: 2017-05-17
发明(设计)人: 姜元春;邵亮;刘业政;徐玉祥;梁世全 申请(专利权)人: 合肥工业大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 安徽省合肥新安专利代理有限责任公司34101 代理人: 陆丽莉,何梅生
地址: 230009 安*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 考虑 用户 作者 关系 建模 个性化 搜索 方法
【权利要求书】:

1.一种考虑用户-作者关系建模的个性化搜索方法,是应用于社交网络中,所述社交网络中包含搜索用户U以及所述搜索用户U所关注的对象;将所述搜索用户U所关注的对象记为所述搜索用户U的关注者集合FU={f1,f2,…,fj,…fJ};fj表示第j个关注者;则所述搜索用户U为所述第j个关注者fj的粉丝;1≤j≤J;其特征是按如下步骤进行:

步骤1、获得主题词矩阵

步骤1.1、从所述社交网络上收集原始语料集D并进行分词处理,获得所述原始语料集D的词语集W;

步骤1.2、对所述词语集W进行去冗余处理,获得词典C={c1,c2,…,ci,…,cn};ci表示所述词典C中第i个词语;n表示词语的总数;1≤i≤n;

步骤1.3、对所述词语集W进行LDA模型训练,获得主题词矩阵ωp,q表示第q个词语cq在第p个主题上出现的概率;m表示主题的总数;1≤p≤m;

步骤2、获得所述搜索用户U的兴趣度θU及其词语集WU的混合概率以及J个关注者的兴趣度ΘF及其词语集WU的混合概率ΦF

步骤2.1、从所述社交网络上收集所述搜索用户U的原始语料集以及所述关注者集合FU的原始语料集并分别进行分词处理,获得所述搜索用户U的词语集,记为以及所述关注者集合FU的词语集,记为表示所述搜索用户U的第l条原始语料;表示第j个关注者fj的原始语料集;表示所述搜索用户U的词语集WU中第k个词语;表示第j个关注者fj的词语集;1≤k≤K;1≤l≤L;

步骤2.2、利用所述主题词矩阵对所述搜索用户U的词语集WU进行训练,获得所述搜索用户U的词语集WU中每个词语所对应的主题,以及所述搜索用户U对所有主题的兴趣度,记为表示所述搜索用户U对第p个主题的兴趣度;

步骤2.3、统计所述词语集WU中每个词语在所对应的主题上出现的概率,记为表示所述搜索用户U的词语集WU中第k个词语在其对应的主题上出现的概率;

步骤2.4、根据所述词语集WU的概率在所述主题词矩阵中进行匹配,获得所述词语集WU中每个词语在所述主题词矩阵中出现的概率表示所述搜索用户U的词语集WU中第k个词语在所述主题词矩阵中出现的概率;

步骤2.5、利用式(1)所示的Jelinek-Mercer平滑方法获得所述词语集WU中第k个词语的混合概率从而获得所述词语集WU的混合概率

式(1)中,λ表示所述Jelinek-Mercer平滑方法的平滑参数;

步骤2.6、根据步骤2.2-步骤2.5,对所述关注者集合FU的词语集WF进行处理,获得J个关注者对每个主题的兴趣度,记为以及J个关注者的词语集的混合概率集表示第j个关注者fj的所有主题的兴趣度集合;并有表示第j个关注者fj对第p个主题的兴趣度;表示第j个关注者fj的词语集中所有词语的混合概率;

步骤3、获得J个关注者FU在m个主题上的交互率IN:

步骤3.1、将所述搜索用户U的原始语料集DU与所述第j个关注者fj的原始语料集进行交集处理,获得所述搜索用户U转发所述第j个关注者fj的原始语料集,记为并进行分词处理,获得所述搜索用户U转发第j个关注者fj的词语集,记为表示所述搜索用户U转发所述第j个关注者fj的原始语料集中第z条原始语料;表示所述搜索用户U转发第j个关注者fj的词语集中第t个词语;1≤t≤T;1≤z≤Z;

步骤3.2、统计所述搜索用户U转发第j个关注者fj的词语集中第t个词语在第p个主题上出现的次数,记为从而获得T个词语在第p个主题上出现的次数,记为

步骤3.3,重复步骤3.2,从而获得所述搜索用户U转发第j个关注者fj的词语集中T个词语在m个主题上出现的次数,记为

步骤3.4,重复步骤3.3,获得所述搜索用户U转发J个关注者FU的词语集中的所有词语在m个主题上出现的次数,记为S={S1,S2,…,Sj,…,SJ};

步骤3.5、利用式(2)获得第j个关注者fj在第p个主题上的交互率从而获得第j个关注者fj在m个主题上的交互率进而获得J个关注者FU在m个主题上的交互率IN={IN1,IN2,…,INj,…,INJ}:

<mrow><msubsup><mi>IN</mi><mi>j</mi><mrow><mo>(</mo><mi>p</mi><mo>)</mo></mrow></msubsup><mo>=</mo><mfrac><msubsup><mi>S</mi><mi>j</mi><mrow><mo>(</mo><mi>p</mi><mo>)</mo></mrow></msubsup><mrow><munderover><mo>&Sigma;</mo><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>J</mi></munderover><msubsup><mi>S</mi><mi>j</mi><mrow><mo>(</mo><mi>p</mi><mo>)</mo></mrow></msubsup></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow>

步骤4、利用式(3)所示的KL散度来衡量所述搜索用户U对所有主题的兴趣度θU与所述第j个关注者fj的所有主题的兴趣度集合之间的相似度从而获得所述搜索用户U对所有主题的兴趣度θU与J个关注者的所有主题的兴趣度集合之间的相似度

<mrow><msubsup><mi>SIM</mi><mi>j</mi><mi>U</mi></msubsup><mo>=</mo><mfrac><mn>1</mn><mrow><mi>K</mi><mi>L</mi><mrow><mo>(</mo><msub><mi>&theta;</mi><mi>U</mi></msub><mo>|</mo><mo>|</mo><msubsup><mi>&theta;</mi><mi>j</mi><mi>F</mi></msubsup><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mrow>

步骤5、利用式(4)获得第j个关注者fj的热门度POPj,从而获得J个关注者FU的热门度POPU={POP1,POP2,…,POPj,…,POPJ}:

<mrow><msub><mi>POP</mi><mi>j</mi></msub><mo>=</mo><mfrac><mrow><mi>l</mi><mi>o</mi><mi>g</mi><mrow><mo>(</mo><msub><mi>&rho;</mi><mi>j</mi></msub><mo>)</mo></mrow></mrow><mrow><mi>l</mi><mi>o</mi><mi>g</mi><mrow><mo>(</mo><msub><mi>&rho;</mi><mi>max</mi></msub><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>4</mn><mo>)</mo></mrow></mrow>

式(4)中,ρj表示所述社交网络中第j个关注者fj拥有的粉丝数量,ρmax表示所述社交网络中拥有最大粉丝数用户的粉丝量;

步骤6、获得所述搜索用户U在m个主题下K个词语的评价模型

步骤6.1、利用式(5)获得第j个关注者fj对第p个主题的评价值

<mrow><msubsup><mi>&Gamma;</mi><mi>p</mi><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow></msubsup><mo>=</mo><msup><mrow><mo>(</mo><msub><mi>&sigma;</mi><mn>1</mn></msub><mo>,</mo><msub><mi>&sigma;</mi><mn>2</mn></msub><mo>,</mo><msub><mi>&sigma;</mi><mn>3</mn></msub><mo>,</mo><msub><mi>&sigma;</mi><mn>4</mn></msub><mo>)</mo></mrow><mi>T</mi></msup><mfenced open = "(" close = ")"><mtable><mtr><mtd><msubsup><mi>&theta;</mi><mi>p</mi><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow></msubsup></mtd></mtr><mtr><mtd><mrow><msubsup><mi>IN</mi><mi>j</mi><mrow><mo>(</mo><mi>p</mi><mo>)</mo></mrow></msubsup></mrow></mtd></mtr><mtr><mtd><mrow><msubsup><mi>SIM</mi><mi>j</mi><mi>U</mi></msubsup></mrow></mtd></mtr><mtr><mtd><mrow><msub><mi>POP</mi><mi>j</mi></msub></mrow></mtd></mtr></mtable></mfenced><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>5</mn><mo>)</mo></mrow></mrow>

式(5)中,σ1234分别表示兴趣度的权重、交互率的权重、相似度的权重和热门度POPj的权重;并有σ1234=1;

步骤6.2、利用式(6)获得第j个关注者fj对m个主题的评价和Γj,从而获得J个关注者FU对m个主题的评价和ΓU={Γ12,…,Γj,…,ΓJ}:

<mrow><msub><mi>&Gamma;</mi><mi>j</mi></msub><mo>=</mo><munderover><mo>&Sigma;</mo><mrow><mi>p</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></munderover><msubsup><mi>&Gamma;</mi><mi>p</mi><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow></msubsup><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>6</mn><mo>)</mo></mrow></mrow>

步骤6.3、对所述J个关注者的评价和ΓU进行降序排序,并选取前X个评价和,记为Γ′U={Γ′1,Γ′2,…,Γ′x,…,Γ′X};Γ′x表示所述前X个评价和中第x个评价和;1≤x≤X;

步骤6.4、利用式(7)所示的Dirichlet先验平滑方法获得所述搜索用户U在第p个主题下对第k个词语的评价模型从而获得所述搜索用户U在第p个主题下K个词语的评价模型进而获得所述搜索用户U在m个主题下K个词语的评价模型

式(7)中,表示所述第x个关注者fx的词语集中第k个词语在所述主题词矩阵中出现的概率;β表示所述Dirichlet先验平滑方法的平滑参数;

步骤7、获得由相似度和关注交叉率构成的搜索用户U与第g个作者ag的交互率;

步骤7.1、所述搜索用户U在所述社交网络中提交搜索词组Que进行查询,返回G条原始语料和所述G条原始语料所对应的作者;将G条原始语料记为表示第g条原始语料;将所述G条原始语料所对应的作者记为集合A={a1,a2,…,ag,…,aG};ag表示第g个作者;将所述G个作者的所有原始语料集合记为表示第g个作者ag的原始语料集;1≤g≤G;

步骤7.2、对所述G个作者A的原始语料集合DA进行分词处理,获得所述G个作者A的词语集,记为表示所述第g个作者ag的词语集;1≤e≤E;

步骤7.3、根据步骤2.2-步骤2.5,对所述作者集合A的词语集WA进行处理,获得G个作者对每个主题的兴趣度,记为表示第g个作者ag的所有主题的兴趣度集合;并有表示第g个作者ag对第p个主题的兴趣度;

步骤7.4、利用式(8)所示的KL散度来衡量所述搜索用户U对所有主题的兴趣度θU与所述第g个作者ag的所有主题的兴趣度集合之间的相似度从而获得所述搜索用户U对所有主题的兴趣度θU与G个作者的所有主题的兴趣度集合之间的相似度

<mrow><msubsup><mi>SIM</mi><mi>g</mi><mrow><mo>&prime;</mo><mi>U</mi></mrow></msubsup><mo>=</mo><mfrac><mn>1</mn><mrow><mi>K</mi><mi>L</mi><mrow><mo>(</mo><msub><mi>&theta;</mi><mi>U</mi></msub><mo>|</mo><mo>|</mo><msubsup><mi>&theta;</mi><mi>g</mi><mi>A</mi></msubsup><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>8</mn><mo>)</mo></mrow></mrow>

步骤7.5、利用式(9)所示的Jaccard距离计算所述搜索用户U与第g个作者ag的关注交叉率Jaccard(U,g),从而获得所述搜索用户U与G个作者的关注交叉率:

<mrow><mi>J</mi><mi>a</mi><mi>c</mi><mi>c</mi><mi>a</mi><mi>r</mi><mi>d</mi><mrow><mo>(</mo><mi>U</mi><mo>,</mo><mi>g</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mo>|</mo><mi>F</mi><mi>o</mi><mi>l</mi><mrow><mo>(</mo><mi>U</mi><mo>)</mo></mrow><mo>&cap;</mo><mi>F</mi><mi>o</mi><mi>l</mi><mrow><mo>(</mo><mi>g</mi><mo>)</mo></mrow><mo>|</mo></mrow><mrow><mo>|</mo><mi>F</mi><mi>o</mi><mi>l</mi><mrow><mo>(</mo><mi>U</mi><mo>)</mo></mrow><mo>&cup;</mo><mi>F</mi><mi>o</mi><mi>l</mi><mrow><mo>(</mo><mi>g</mi><mo>)</mo></mrow><mo>|</mo></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>9</mn><mo>)</mo></mrow></mrow>

式(9)中,Fol(U)表示所述搜索用户U所关注的对象的集合;Fol(g)表示第g个作者ag所关注的对象的集合;

步骤8、获得由影响力Inf(g)、传播能力Tra(g)、认证度PC(g)和权威度Auth(g)所构成的第g个作者ag的评价指标;

步骤8.1、利用式(10)获得第g个作者ag的影响力Inf(g):

<mrow><mi>I</mi><mi>n</mi><mi>f</mi><mrow><mo>(</mo><mi>g</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>i</mi><mi>n</mi><mi>p</mi><mrow><mo>(</mo><mi>g</mi><mo>)</mo></mrow></mrow><mrow><mi>i</mi><mi>n</mi><mi>p</mi><mrow><mo>(</mo><mi>g</mi><mo>)</mo></mrow><mo>+</mo><mi>o</mi><mi>u</mi><mi>t</mi><mrow><mo>(</mo><mi>g</mi><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>10</mn><mo>)</mo></mrow></mrow>

式(10)中,inp(g)表示第g个作者ag的粉丝数量;out(g)表示第g个作者ag所关注的对象数量;

步骤8.2、利用式(11)获得第g个作者ag的传播能力Tra(g):

Tra(g)=lg(1+ret(g)) (11)

式(11)中,ret(g)表示第g个作者ag所有原始语料的被转发总数;

步骤8.3、判断所述第g个作者ag是否为认证用户,若是认证用户,则令认证度PC(g)=τ;否则,令认证度PC(g)=0;

步骤8.4、利用所述主题词矩阵对第g条原始语料的词语集WU进行训练,获得第g条原始语料的词语集中每个词语所对应的主题,以及第g条原始语料所对应的第p个主题分布ηQue(g,p);并利用式(12)获得第g个作者ag的权威度Auth(g);

<mrow><mi>A</mi><mi>u</mi><mi>t</mi><mi>h</mi><mrow><mo>(</mo><mi>g</mi><mo>)</mo></mrow><mo>=</mo><munderover><mo>&Sigma;</mo><mrow><mi>p</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></munderover><msub><mi>&eta;</mi><mrow><mi>Q</mi><mi>u</mi><mi>e</mi></mrow></msub><mrow><mo>(</mo><mi>g</mi><mo>,</mo><mi>p</mi><mo>)</mo></mrow><mo>&times;</mo><msubsup><mi>&theta;</mi><mi>p</mi><mrow><mo>(</mo><mi>g</mi><mo>)</mo></mrow></msubsup><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>12</mn><mo>)</mo></mrow></mrow>

步骤9,获得由长度比值Len(g)、外联度Url(g)、标签值Has(g)和转发率Ret(g)所构成的第g条原始语料的评价指标;

步骤9.1、利用式(13)获得第g条原始语料的长度比值Len(g):

<mrow><mi>L</mi><mi>e</mi><mi>n</mi><mrow><mo>(</mo><mi>g</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>l</mi><mrow><mo>(</mo><mi>g</mi><mo>)</mo></mrow></mrow><mrow><munder><mrow><mi>m</mi><mi>a</mi><mi>x</mi></mrow><mrow><msup><mi>d</mi><mo>&prime;</mo></msup><mo>&Element;</mo><msubsup><mi>D</mi><mi>g</mi><mi>A</mi></msubsup></mrow></munder><mi>l</mi><mrow><mo>(</mo><msup><mi>d</mi><mo>&prime;</mo></msup><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>13</mn><mo>)</mo></mrow></mrow>

式(13)中,l(g)表示第g条原始语料的词语总数;l(d′)表示第g个作者ag的原始语料集中任意一条语料的词语总数;

步骤9.3、判断所述第g条原始语料是否含有链接,若含有链接,则令外联度Url(g)=μ;否则,令外联度Url(g)=0;

步骤9.4、判断所述第g条原始语料是否含有标签,若含有标签,则令标签值Has(g)=ρ;否则,令标签值Has(g)=0;

步骤9.5、利用式(14)获得第g条原始语料的转发率Ret(g):

<mrow><mi>Re</mi><mi>t</mi><mrow><mo>(</mo><mi>g</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>r</mi><mi>e</mi><mi>t</mi><mrow><mo>(</mo><mi>g</mi><mo>)</mo></mrow></mrow><mrow><munder><mrow><mi>m</mi><mi>a</mi><mi>x</mi></mrow><mrow><msup><mi>g</mi><mo>&prime;</mo></msup><mo>&Element;</mo><msub><mi>D</mi><mrow><mi>Q</mi><mi>u</mi><mi>e</mi></mrow></msub></mrow></munder><mi>r</mi><mi>e</mi><mi>t</mi><mrow><mo>(</mo><msup><mi>g</mi><mo>&prime;</mo></msup><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>14</mn><mo>)</mo></mrow></mrow>

式(14)中,ret(g)表示第g条原始语料被转发的次数;ret(g')表示G条原始语料DQue中任意一条原始语料被转发的次数;

步骤10、获得搜索结果;

步骤10.1、利用式(15)获得所述搜索用户U对第g条原始语料的第g个作者ag的信任度ψU,g

<mrow><msub><mi>&psi;</mi><mrow><mi>U</mi><mo>,</mo><mi>g</mi></mrow></msub><mo>=</mo><msubsup><mi>&alpha;</mi><mn>1</mn><mi>T</mi></msubsup><mfenced open = "(" close = ")"><mtable><mtr><mtd><mrow><mi>L</mi><mi>e</mi><mi>n</mi><mrow><mo>(</mo><mi>g</mi><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><mi>U</mi><mi>r</mi><mi>l</mi><mrow><mo>(</mo><mi>g</mi><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><mi>H</mi><mi>a</mi><mi>s</mi><mrow><mo>(</mo><mi>g</mi><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><mi>Re</mi><mi>t</mi><mrow><mo>(</mo><mi>g</mi><mo>)</mo></mrow></mrow></mtd></mtr></mtable></mfenced><msubsup><mi>&alpha;</mi><mn>2</mn><mi>T</mi></msubsup><mfenced open = "(" close = ")"><mtable><mtr><mtd><mrow><mi>I</mi><mi>n</mi><mi>f</mi><mrow><mo>(</mo><mi>g</mi><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><mi>T</mi><mi>r</mi><mi>a</mi><mrow><mo>(</mo><mi>g</mi><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><mi>P</mi><mi>C</mi><mrow><mo>(</mo><mi>g</mi><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><mi>A</mi><mi>u</mi><mi>t</mi><mi>h</mi><mrow><mo>(</mo><mi>g</mi><mo>)</mo></mrow></mrow></mtd></mtr></mtable></mfenced><msubsup><mi>&alpha;</mi><mn>3</mn><mi>T</mi></msubsup><mfenced open = "(" close = ")"><mtable><mtr><mtd><mrow><msubsup><mi>SIM</mi><mi>g</mi><mrow><mo>&prime;</mo><mi>U</mi></mrow></msubsup></mrow></mtd></mtr><mtr><mtd><mrow><mi>J</mi><mi>a</mi><mi>c</mi><mi>c</mi><mi>a</mi><mi>r</mi><mi>d</mi><mrow><mo>(</mo><mi>U</mi><mo>,</mo><mi>g</mi><mo>)</mo></mrow></mrow></mtd></mtr></mtable></mfenced><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>15</mn><mo>)</mo></mrow></mrow>

式(15)中,分别表示第g条原始语料评价指标的权重、第g个作者ag评价指标的权重、搜索用户U与第g个作者ag交互率的权重;0≤ψU,g≤1;

步骤10.2、利用式(16)获得第g条原始语料的综合评分从而获得G条原始语料的综合评分:

步骤10.3、对所述G条原始语料的综合评分进行降序排序,所获得的排序结果即为所述个性化搜索方法的搜索结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510889763.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top