[发明专利]基于用户兴趣主题的微博网络链路预测方法、装置及介质有效
申请号: | 202010548003.4 | 申请日: | 2020-06-16 |
公开(公告)号: | CN111859163B | 公开(公告)日: | 2023-09-29 |
发明(设计)人: | 丁大钊;张建军;鲍尚策;王文重;杨鹏飞;张志航 | 申请(专利权)人: | 珠海高凌信息科技股份有限公司 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06Q50/00 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 伍志健 |
地址: | 519060 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 用户 兴趣 主题 网络 预测 方法 装置 介质 | ||
本发明涉及一种基于用户兴趣主题的微博网络链路预测方法、装置及介质,本发明的技术方案通过爬取微博网络数据并建立用户网络拓扑,将所爬取的用户微博内容汇集成语料文档;通过社会三元关系理论筛选二级好友,得到拥有共同关注的微博用户;对所述语料文本进行文本建模,通过LDA聚类用户语料文档词汇及主题特征;算所述主题特征的概率分布,并构建用户兴趣主题模型;通过KL距离计算所述二级好友的集合间的兴趣主题相似度,并按比例取相似用户作为预测结果。本发明的有益效果为:借助真实微博语料库在潜在好友中依据微博内容提取用户兴趣主题,发现相似用户,并进一步预测用户网络的未来连接,针对微博网络下具有更好的预测效果。
技术领域
本发明涉及社交网络及数据分析领域,具体涉及了一种基于用户兴趣主题的微博网络链路预测方法、装置及介质。
背景技术
微博是近些年来迅速发展壮大的在线社交分享平台,因其内容分享迅速、便捷的特点吸引了大量活跃用户。用户之间的关注、转发、点赞等交互行为组建了极具价值的微博网络。面向微博网络的舆情分析、热点推送、好友推荐等技术为运营者提供了众多服务手段用以改善用户体验,也成为数据分析行业人员研究分析的得力工具。链路预测技术是网络科学之重要分支,其旨在通过网络已知信息预测尚未发现或即将产生的连边。微博网络的预测即指借助用户关注、微博转发等数据预知下一时刻可能发生关注行为的用户对,为用户推荐具有相同兴趣的相似好友。
发明内容
本发明的目的在于至少解决现有技术中存在的技术问题之一,提供了一种基于用户兴趣主题的微博网络链路预测方法、装置及介质,预测效果更好。
本发明的技术方案包括一种基于用户兴趣主题的微博网络链路预测方法,其特征在于,该方法包括:S100,爬取微博网络数据并建立用户网络拓扑,将所爬取的用户微博内容汇集成语料文档;S200,通过社会三元关系理论筛选二级好友,得到拥有共同关注的微博用户;S300,对所述语料文本进行文本建模,通过LDA聚类用户语料文档词汇及主题特征;S400,计算所述主题特征的概率分布,并构建用户兴趣主题模型;S500,通过KL距离计算所述二级好友的集合间的兴趣主题相似度,并按比例取相似用户作为预测结果。
根据所述的基于用户兴趣主题的微博网络链路预测方法,其特征在于,其中S100包括:爬取微博网络数据并建立用户网络拓扑G(V,E),以邻接矩阵A表示;同时将用户微博内容汇集成语料文档D(U,B),其中U=(u1,u2,…,un)表示用户集合,每个用户ui的微博内容按时序汇集为语料库(bu,1,bu,2,…,bu,M),每条微博内容bu,i来自用户ui分享或转发。
根据所述的基于用户兴趣主题的微博网络链路预测方法,其特征在于,其中S200包括:应用社会三元关系理论在网络拓扑内筛选二级好友,即获取拥有共同关注的微博用户,通过矩阵运算操作为A·A,通过aih表示用户i与用户h存在共同关注好友数量,矩阵运算的行向量即表示该用户的二级好友集合。
根据所述的基于用户兴趣主题的微博网络链路预测方法,其特征在于,其中S300包括:进行文本建模,利用LDA提取用户语料文档的词袋向量d=(ω1,ω2,…,ωn),具体包括:S301,计算文档的词汇矩阵,对每个用户微博文档内容进行词汇统计,词wj在文档bu,i中出现的频率填充到对应的矩阵位置;S302,计算主题的词汇矩阵,在语料库中随机指定主题编号zi,计算每个zi下出现的词汇频率;S303,计算文档的主题矩阵,统计每个词代表的主题在每一个文档中出现的次数,得出用户的微博文档的对应主题矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海高凌信息科技股份有限公司,未经珠海高凌信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010548003.4/2.html,转载请声明来源钻瓜专利网。