[发明专利]一种基于用户话题权威性的微博重排序方法有效
申请号: | 201410564145.4 | 申请日: | 2014-10-21 |
公开(公告)号: | CN104317881B | 公开(公告)日: | 2017-11-24 |
发明(设计)人: | 礼欣;李懿;翟艳梅 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京理工正阳知识产权代理事务所(普通合伙)11639 | 代理人: | 唐华 |
地址: | 100081 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 用户 话题 权威性 微博重 排序 方法 | ||
1.一种用户话题权威性的计算方法,其特征在于,包括以下步骤:
步骤一、获取话题以及由微博搜索引擎返回的按照时间排序的结果集;
步骤二、在步骤一得到的结果集中抽取所有用户id;
步骤三、获取步骤二中每一个用户id一跳网络中的如下信息:
用户id的所有粉丝的id及其所有微博;
用户id所关注的所有人的id及其所有微博;
用户id的所有微博;
步骤四、从步骤三得到的结果集中提取步骤一获取的话题上的所有微博及其对应的用户信息;
步骤五、从步骤四得到的结果集中提取如下话题度量信息:
表示原创微博的度量:原创微博的数量OT1,分享链接的数量OT2、用户所有微博中的单词的重复度OT3和hashtag的数量OT4;
表示会话微博的度量:会话微博的数量CT1和由该用户发起的会话微博的数量CT2;
表示转发微博的度量:转发微博的数量RT1,原创微博中被不重复计算的其他用户转发的个数RT2和转发该用户的微博的不重复计算的所有用户的个数RT3;
表示提及的度量:该用户提及到的相同用户可重复计算的其他用户的次数M1,该用户提及到的相同用户不重复计算的其他用户的个数M2、其他用户提及到该用户的次数M3和提及到该用户的其他用户的个数M4;
表示与用户关系图相关的度量:该用户在该话题上活跃的粉丝数G1,该用户关注的人在该话题上活跃的个数G2、在该用户之后发布该话题微博的粉丝数G3和该用户关注的人中先于该用户发布该话题微博的数量G4;
表示用户总的受欢迎程度的度量:该用户总的粉丝的数量F1和该用户关注的人的总的数量F2;
步骤六、提出用户话题权威性的特征、特征计算公式并计算;
步骤七、提出用户话题权威性即用户话题权威值计算公式并计算,具体如下:
(1)、话题参与强度:其中|tweets|表示该用户所有话题上的所有微博的数量;
(2)、原始话题强度:
(3)、非会话话题强度:
其中λ用于表示用户倾向于进入微博会话的程度,较优的λ=0.9;
(4)、转推影响力:RI=RT2*log(RT3);
(5)、提及影响力:MI=M3*log(M4)-M1*log(M2);
(6)、信息传播度:ID=log(G3+1)-log(G4+1);
(7)、一跳网络得分:NS=log(G1+1)-log(G2+1);
(8)、超链接在原创微博中所占的比例:
(9)、关键词hashtag在原创微博中所占的比例:
(10)、作者微博所用词的相似度:
其中n表示作者所有的微博数量,表示si和sj的相似度,si和sj是由作者的第i和第j条微博中通过去掉停用词以及做stem之后得到的单词的集合;在计算OT3之前,所有微博先按照时间排序,即times(si)<times(sj):
(11)、所有粉丝中该话题上有微博的粉丝所占的比例:
(12)、粉丝强度:
步骤八、返回用户话题权威值计算结果。
2.根据权利要求1所述的一种用户话题权威性的计算方法,其特征在于,所述用户话题权威值计算公式如下所述:
其中,xi表示第i个用户,f表示第f个特征,表示用户i在第f个特征上的值,Ff表示参数为θf的特征f的在其分布上的累积概率分布在xi处的值,θf表示特征f的概率密度分布的参数,β∈(0,1),表示在话题特征以及非话题特征之间做平衡的参数,其值由最大化皮尔逊相关系数求得。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410564145.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种理气开郁茉莉茶及其制作方法
- 下一篇:一种苦瓜片荷叶舒缓茶及其制备方法