[发明专利]一种考虑用户在线关系网络的舆情主题发现方法在审
申请号: | 202010995705.7 | 申请日: | 2020-09-21 |
公开(公告)号: | CN112100518A | 公开(公告)日: | 2020-12-18 |
发明(设计)人: | 张吉;姜元春;孙见山;余婷;梁瑞成;单海军;李怡;钱洋;柴一栋 | 申请(专利权)人: | 之江实验室;合肥工业大学 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06Q50/00;G06F40/216;G06F40/289 |
代理公司: | 安徽省合肥新安专利代理有限责任公司 34101 | 代理人: | 陆丽莉;何梅生 |
地址: | 310012 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 考虑 用户 在线 关系 网络 舆情 主题 发现 方法 | ||
本发明公开了一种考虑用户在线关系网络的舆情主题发现方法,其步骤包括:1构建用户在线关系网络,2设计有参贝叶斯模型user link topic model生成文本主题,3利用坍塌式吉布斯抽样算法进行参数推断。本发明在应对大规模社交网络时,能有效、快速、准确地发现用户关注度高的舆情主题,有助于舆情主题检测,从而为决策者提供重要信息,用于评估在过去特定时间内对于民众舆情引导效果,并有助于及时了解用户当下所关心的热点话题。
技术领域
本发明涉及舆情主题发现技术领域,具体涉及一种考虑用户在线关系网络的舆情主题发现方法。
背景技术
随着社交媒体和移动应用的快速发展,如:百度贴吧、新浪微博、twitter、reddit等,在线社交媒体已经成为用户分享、发表观点、诉说诉求的重要工具,这些社交媒体有着惊人的速度、覆盖面和渗透力,民众所分享的信息被社交媒体广泛吸收,这些信息通常数量多、内容少,普遍存在随意性语言并且受到其他用户的影响,这些特点对于分析信息中文本对应的主题影响很大。
不同用户彼此间通过发帖、关注、转发等形式形成了用户在线关系网络,用户所发表的观点通过社交网络进行传播,彼此影响,形成关于社会热点的各种舆情主题。舆情主题检测能为政府决策提供重要信息,有助于政府及相关部门评估特定时间内对于民众舆情的引导效果,并有助于及时了解民众当下所关心的热点话题。
发明内容
本发明为了克服现有技术存在的不足之处,提出了一种考虑用户在线关系网络的舆情主题发现方法,以期能有效发现用户在线关系网络中的舆情主题,有助于舆情主题检测,从而为决策者提供重要信息,用于评估在过去特定时间内对于民众舆情引导效果,并有助于及时了解用户当下所关心的热点话题。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种考虑用户在线关系网络的舆情主题发现方法的特点是按如下步骤进行:
步骤1、构建用户在线关系网络G:
步骤1.1、获取U个用户分别发表的Nu篇文档中的文本信息并构成文本集合D,去除所述文本集合D中所有标点符号并进行分词操作后,再去除停用词和低频词,从而得到预处理后的包含U×Nu篇文档的文本集合D′;其中,预处理后的第u个用户发表的Nu篇文档记为表示第u个用户发表的第nu篇文档,将第nu篇文档中的词集合记为其中,表示第u个用户发表的第 nu篇文档中第m个单词,表示第u个用户发表的第nu篇文档中的词个数;
步骤1.2、根据用户-帖子二部图,采用随机游走方法获取用户在线关系网络G;
步骤1.3、获取所述用户在线关系网络G中与第u个用户最近邻的N个邻居用户;
步骤2、指定预处理后的文本集合D′中的主题个数为K;
步骤3、设计有参贝叶斯模型,并通过分析用户在所述用户在线关系网络G中的文本信息与用户链接信息,生成文本对应主题;
步骤3.1、按照式(2)分别生成所述用户在线关系网络G中的背景主题词分布φB:
式(2)中,~表示服从,π表示单词从主题词分布中生成概率的期望;且π服从超参数为γ的Beta分布;1-π表示单词从背景主题词分布φB中生成概率的期望;β是狄利克雷分布的超参数,且服从狄利克雷Dirichlet分布,并有:
式(3)中,表示第v个单词在相应背景主题下所有词所占权重,V是预处理后的文本集合D′中所有不重复词的总数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室;合肥工业大学,未经之江实验室;合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010995705.7/2.html,转载请声明来源钻瓜专利网。