[发明专利]一种考虑用户在线关系网络的舆情主题发现方法在审
申请号: | 202010995705.7 | 申请日: | 2020-09-21 |
公开(公告)号: | CN112100518A | 公开(公告)日: | 2020-12-18 |
发明(设计)人: | 张吉;姜元春;孙见山;余婷;梁瑞成;单海军;李怡;钱洋;柴一栋 | 申请(专利权)人: | 之江实验室;合肥工业大学 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06Q50/00;G06F40/216;G06F40/289 |
代理公司: | 安徽省合肥新安专利代理有限责任公司 34101 | 代理人: | 陆丽莉;何梅生 |
地址: | 310012 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 考虑 用户 在线 关系 网络 舆情 主题 发现 方法 | ||
1.一种考虑用户在线关系网络的舆情主题发现方法,其特征是按如下步骤进行:
步骤1、构建用户在线关系网络G:
步骤1.1、获取U个用户分别发表的Nu篇文档中的文本信息并构成文本集合D,去除所述文本集合D中所有标点符号并进行分词操作后,再去除停用词和低频词,从而得到预处理后的包含U×Nu篇文档的文本集合D′;其中,预处理后的第u个用户发表的Nu篇文档记为表示第u个用户发表的第nu篇文档,将第nu篇文档中的词集合记为其中,表示第u个用户发表的第nu篇文档中第m个单词,表示第u个用户发表的第nu篇文档中的词个数;
步骤1.2、根据用户-帖子二部图,采用随机游走方法获取用户在线关系网络G;
步骤1.3、获取所述用户在线关系网络G中与第u个用户最近邻的N个邻居用户;
步骤2、指定预处理后的文本集合D′中的主题个数为K;
步骤3、设计有参贝叶斯模型,并通过分析用户在所述用户在线关系网络G中的文本信息与用户链接信息,生成文本对应主题;
步骤3.1、按照式(2)分别生成所述用户在线关系网络G中的背景主题词分布φB:
式(2)中,~表示服从,π表示单词从主题词分布中生成概率的期望;且π服从超参数为γ的Beta分布;1-π表示单词从背景主题词分布φB中生成概率的期望;β是狄利克雷分布的超参数,且服从狄利克雷Dirichlet分布,并有:
式(3)中,表示第v个单词在相应背景主题下所有词所占权重,V是预处理后的文本集合D′中所有不重复词的总数;
步骤3.2、对于所述用户在线关系网络G中的K个主题,按照式(4)分别生成第k个主题的词分布从而得到用户在线关系网络G中所有主题下的词分布记为
式(4)中,服从狄利克雷Dirichlet分布,并有:
式(5)中,φkv表示第v个单词在第k个主题下所有词所占比重;
步骤3.3、对于所述用户在线关系网络G中的每个用户:
步骤3.3.1、按照式(6)生成第u个用户的主题分布
式(6)中,α为先验分布超参数;服从狄利克雷Dirichlet分布,并有:
式(7)中,表示第u个用户发表的第nu篇文档的主题分布情况;
步骤3.3.2、对用户发表的每篇文档:
按照式(8)生成第u个用户发表的第nu篇文档的主题
式(8)中,服从参数为的多项式Multi分布;
按照式(9)生成单词的主题-背景主题指示变量
式(9)中,是二元指示变量,且服从伯努利Bernoulli分布,并用于选择第u个用户发表的第nu篇短文本中的第m个单词是从背景主题词分布中生成还是从主题词分布中生成;当时,表示第u个用户发表的第nu篇文档中第m个单词从主题词分布中产生,当时,表示第u个用户发表的第nu篇文档中第m个单词从背景主题词分布中产生;
按照式(10)生成短文本中每个词:
式(10)中,表示第u个用户发表的第nu篇文档对应主题的词分布,第u个用户发表的第nu篇文档中第m个单词服从参数为或的多项式Multi分布;
步骤3.4、根据式(11)创建存在链接的第u个用户和第u′个用户之间链接指示变量yu,u′,且yu,u'∈{1,-1}:
式(11)中,sign(·)为符号函数,为哈达玛积;η表示K维参数的分类器;并有:
式(12)中,ηk表示第k个主题下的分类器;
式(11)中,为K维向量,并有:
式(13)中,表示第u个用户发布的文档中第k个主题的所占比例,并有:
式(14)中,表示第u个用户发表的第k个主题的文档数;
步骤4、基于所述用户在线关系网络G及文本集合D′,初始化所有参数,包括:引入的辅助变量λu,u'=1,利用均匀分布为每个用户的每条文档指定主题,对每条回帖的每个词指定是否从背景舆情主题中生成,并对用户主题分布、各主题下词分布、链接分布进行参数推断:
步骤4.1、根据式(15)采样K维参数的分类器η:
式(15)中,∝表示正比于,N(·)为多元高斯分布,μ为多元高斯分布的均值向量;并有:
式(16)中,c为正则化参数;
式(15)中,∑为多元高斯分布的协方差矩阵;并有:
式(17)中,σ表示标准差;
式(15)中,链接指示变量yu,u'与辅助变量λu,u'的联合概率分布为:
式(18)中,ζu,u'为损失函数,并有:
步骤4.2、根据式(20)采样第u个用户发表的第nu篇文档中的主题
式(20)中,表示除第u个用户发表的第nu篇文档对应的主题外的主题;表示除第u个用户发表的第nu篇文档对应的单词外的单词;表示除第nu篇文档以外,第u个用户发表的第k个主题的所有文档数量;表示除第nu篇文档以外,第u个用户发表的第k个主题的所有单词数量;表示属于第k个主题的所有单词数量;表示第u个用户发表的发表的所有文档数;exp(·)为指数函数;Γ(·)为伽马函数;
步骤4.3、根据式(21)采样主题-主题指示变量
式(21)中,表示去除第u个用户发表的第nu篇文档中第m个词外,属于背景主题B的单词数;表示去除第u个用户发表的第nu篇文档中第m个词外,第nu篇文档中属于第u个用户发表的第nu篇文档的主题的单词数;表示去除第u个用户发表的第nu篇文档中第m个词外,预处理后的文本集合D′中属于第u个用户发表的第nu篇文档的主题的单词数;表示去除第u个用户发表的第nu篇文档中第m个词外,预处理后的文本集合D′中属于K个主题的单词数;表示去除第u个用户发表的第nu篇文档中第m个词外,第nu篇文档中属于背景主题B的单词数;表示去除第u个用户发表的第nu篇文档中第m个词外,预处理后的文本集合D′中属于背景主题B单词数;
步骤4.4、根据式(22)采样辅助变量
式(22)中,GIG(·)为广义逆高斯分布;z表示文档对应的主题;
步骤4.5、重复执行步骤4.1-步骤4.4I0次,直至所有参数均收敛;
步骤5、根据步骤4迭代得到的收敛结果,利用式(23)和式(24)得到第k个主题的词分布和第u个用户对第k个主题的关注度
式(23)和式(24)中,表示I0次迭代后的属于第k个主题的所有单词数量;表示I0次迭代后的第u个用户发表的第k个主题的评论数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室;合肥工业大学,未经之江实验室;合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010995705.7/1.html,转载请声明来源钻瓜专利网。