[发明专利]微博用户兴趣推理方法及装置在审
申请号: | 201610053718.6 | 申请日: | 2016-01-26 |
公开(公告)号: | CN105740366A | 公开(公告)日: | 2016-07-06 |
发明(设计)人: | 王岢;徐晓飞;叶允明;李小宜;刘广建 | 申请(专利权)人: | 哈尔滨工业大学深圳研究生院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 深圳市科吉华烽知识产权事务所(普通合伙) 44248 | 代理人: | 孙伟 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用户 兴趣 推理 方法 装置 | ||
1.一种建立微博用户兴趣推理模型的方法,其特征在于:所述方法包括(1)用户个人标签的获取与计算,(2)用户微博内容的兴趣关键词提取,(3)提取基于社会化网络的兴趣标签,最后对上述三个方面的兴趣特征进行融合,建立用户的兴趣模型:
M=αMtags+βMcontent+γMrelation
其中0≤α,β,γ≤1,且α+β+γ=1,Mtags是博主的标签通过计算得到的博主兴趣点模型,Mcontent是博主微博的内容提取出来的兴趣关键词,Mrelation是基于博主的关注列表提取的博主兴趣点模型;Mtags的模型计算主要是提取当前博主的Tags标签,并利用标签自带的权重值进行归一化处理;Mcontent的提取关键词的计算包括:微博文本的预处理,分词、同义词计算进行话题分类,微博内容扩充,关键词提取以及权重计算;Mrelation采用标签传播算法计算,所述标签传播算法是利用已标注好的节点标签信息去评测尚未标记节点的标签信息。
2.根据权利要求1所述的方法,其特征在于:所述微博内容扩充分为两种方式:一是对该用户的微博进行分类聚类处理,从微博平台收集具有相同话题或相似话题的微博归为博主的微博数据文本数据集中;二是利用WBUserRank算法寻找与当前博主关系最为密切的那些博主的部分微博混合集作为当前博主的微博文本集。
3.根据权利要求1所述的方法,其特征在于:对融合后的主题模型的关键词提取,采用计算主题内关键词的相似性的方法,选取权重较大的有代表性的词作为关键词。
4.根据权利要求1所述的方法,其特征在于:博主A经过标签传播算法可以表示成:
其中MA表示待标注的博主A的兴趣标签模型符号表示,表示博主A的关注列表中第i个被关注的博主的兴趣模型,WBUR(Ai)表示Ai在节点排名算法中的重要性,UNI(Ai)表示博主节点自身的重要度。
5.根据权利要求1所述的方法,其特征在于:根据博主的粉丝数/关注数比率判断博主的影响力,根据发布微博数和注册时间衡量博主的活跃度,若博主的影响力大,则适当提高α,β的值,降低γ的值;若博主自身影响力较小,且微博内容大多都是转发、评论等,则适当提高γ的值,降低α,β的值;个人标签、微博内容和关注兴趣模型这三者之间,若不存在相似性,则适当增加γ的值,降低α,β的值,若其中两者之间有相似性,则提高两个模型对应的参数值,降低另外一个参数值。
6.根据权利要求1所述的方法,其特征在于:所述模型采用加权关键词进行表示。
7.一种建立微博用户兴趣推理模型的装置,其特征在于:所述装置包括:用于用户个人标签的获取与计算的模块,提取当前博主的Tags标签,并利用标签自带的权重值进行归一化处理;
用于用户微博内容的兴趣关键词提取的模块,对微博文本的预处理,分词、同义词计算进行话题分类,微博内容聚类扩展,关键词提取以及权重计算;
用于提取基于社会化网络的兴趣标签的模块,采用标签传播算法计算,所述标签传播算法是利用已标注好的节点标签信息去评测尚未标记节点的标签信息;
用于进行兴趣特征融合的模块,建立用户的兴趣模型:
M=αMtags+βMcontent+γMrelation
其中0≤α,β,γ≤1,且α+β+γ=1,Mtags是博主的标签通过计算得到的博主兴趣点模型,Mcontent是博主微博的内容提取出来的兴趣关键词,Mrelation是基于博主的关注列表提取的博主兴趣点模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学深圳研究生院,未经哈尔滨工业大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610053718.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:厨用超声波臭氧清洗机
- 下一篇:三角形支撑架