[发明专利]一种考虑用户在线关系网络的舆情主题发现方法在审

申请号：	202010995705.7	申请日：	2020-09-21
公开（公告）号：	CN112100518A	公开（公告）日：	2020-12-18
发明（设计）人：	张吉;姜元春;孙见山;余婷;梁瑞成;单海军;李怡;钱洋;柴一栋	申请（专利权）人：	之江实验室;合肥工业大学
主分类号：	G06F16/9536	分类号：	G06F16/9536;G06Q50/00;G06F40/216;G06F40/289
代理公司：	安徽省合肥新安专利代理有限责任公司 34101	代理人：	陆丽莉;何梅生
地址：	310012 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种考虑用户在线关系网络舆情主题发现方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种考虑用户在线关系网络的舆情主题发现方法，其特征是按如下步骤进行：

步骤1、构建用户在线关系网络G：

步骤1.1、获取U个用户分别发表的N_u篇文档中的文本信息并构成文本集合D，去除所述文本集合D中所有标点符号并进行分词操作后，再去除停用词和低频词，从而得到预处理后的包含U×N_u篇文档的文本集合D′；其中，预处理后的第u个用户发表的N_u篇文档记为表示第u个用户发表的第n_u篇文档，将第n_u篇文档中的词集合记为其中，表示第u个用户发表的第n_u篇文档中第m个单词，表示第u个用户发表的第n_u篇文档中的词个数；

步骤1.2、根据用户-帖子二部图，采用随机游走方法获取用户在线关系网络G；

步骤1.3、获取所述用户在线关系网络G中与第u个用户最近邻的N个邻居用户；

步骤2、指定预处理后的文本集合D′中的主题个数为K；

步骤3、设计有参贝叶斯模型，并通过分析用户在所述用户在线关系网络G中的文本信息与用户链接信息，生成文本对应主题；

步骤3.1、按照式(2)分别生成所述用户在线关系网络G中的背景主题词分布φ^B：

式(2)中，～表示服从，π表示单词从主题词分布中生成概率的期望；且π服从超参数为γ的Beta分布；1-π表示单词从背景主题词分布φ^B中生成概率的期望；β是狄利克雷分布的超参数，且服从狄利克雷Dirichlet分布，并有：

式(3)中，表示第v个单词在相应背景主题下所有词所占权重，V是预处理后的文本集合D′中所有不重复词的总数；

步骤3.2、对于所述用户在线关系网络G中的K个主题，按照式(4)分别生成第k个主题的词分布从而得到用户在线关系网络G中所有主题下的词分布记为

式(4)中，服从狄利克雷Dirichlet分布，并有：

式(5)中，φ^k_v表示第v个单词在第k个主题下所有词所占比重；

步骤3.3、对于所述用户在线关系网络G中的每个用户：

步骤3.3.1、按照式(6)生成第u个用户的主题分布

式(6)中，α为先验分布超参数；服从狄利克雷Dirichlet分布，并有：

式(7)中，表示第u个用户发表的第n_u篇文档的主题分布情况；

步骤3.3.2、对用户发表的每篇文档：

按照式(8)生成第u个用户发表的第n_u篇文档的主题

式(8)中，服从参数为的多项式Multi分布；

按照式(9)生成单词的主题-背景主题指示变量

式(9)中，是二元指示变量，且服从伯努利Bernoulli分布，并用于选择第u个用户发表的第n_u篇短文本中的第m个单词是从背景主题词分布中生成还是从主题词分布中生成；当时，表示第u个用户发表的第n_u篇文档中第m个单词从主题词分布中产生，当时，表示第u个用户发表的第n_u篇文档中第m个单词从背景主题词分布中产生；

按照式(10)生成短文本中每个词：

式(10)中，表示第u个用户发表的第n_u篇文档对应主题的词分布，第u个用户发表的第n_u篇文档中第m个单词服从参数为或的多项式Multi分布；

步骤3.4、根据式(11)创建存在链接的第u个用户和第u′个用户之间链接指示变量y_u,u′，且y_u,u'∈{1，-1}：

式(11)中，sign(·)为符号函数，为哈达玛积；η表示K维参数的分类器；并有：

式(12)中，η_k表示第k个主题下的分类器；

式(11)中，为K维向量，并有：

式(13)中，表示第u个用户发布的文档中第k个主题的所占比例，并有：

式(14)中，表示第u个用户发表的第k个主题的文档数；

步骤4、基于所述用户在线关系网络G及文本集合D′，初始化所有参数，包括：引入的辅助变量λ_u,u'＝1，利用均匀分布为每个用户的每条文档指定主题，对每条回帖的每个词指定是否从背景舆情主题中生成，并对用户主题分布、各主题下词分布、链接分布进行参数推断：

步骤4.1、根据式(15)采样K维参数的分类器η：

式(15)中，∝表示正比于，N(·)为多元高斯分布，μ为多元高斯分布的均值向量；并有：

式(16)中，c为正则化参数；

式(15)中，∑为多元高斯分布的协方差矩阵；并有：

式(17)中，σ表示标准差；

式(15)中，链接指示变量y_u,u'与辅助变量λ_u,u'的联合概率分布为：

式(18)中，ζ_u,u'为损失函数，并有：

步骤4.2、根据式(20)采样第u个用户发表的第n_u篇文档中的主题

式(20)中，表示除第u个用户发表的第n_u篇文档对应的主题外的主题；表示除第u个用户发表的第n_u篇文档对应的单词外的单词；表示除第n_u篇文档以外，第u个用户发表的第k个主题的所有文档数量；表示除第n_u篇文档以外，第u个用户发表的第k个主题的所有单词数量；表示属于第k个主题的所有单词数量；表示第u个用户发表的发表的所有文档数；exp(·)为指数函数；Γ(·)为伽马函数；

步骤4.3、根据式(21)采样主题-主题指示变量

式(21)中，表示去除第u个用户发表的第n_u篇文档中第m个词外，属于背景主题B的单词数；表示去除第u个用户发表的第n_u篇文档中第m个词外，第n_u篇文档中属于第u个用户发表的第n_u篇文档的主题的单词数；表示去除第u个用户发表的第n_u篇文档中第m个词外，预处理后的文本集合D′中属于第u个用户发表的第n_u篇文档的主题的单词数；表示去除第u个用户发表的第n_u篇文档中第m个词外，预处理后的文本集合D′中属于K个主题的单词数；表示去除第u个用户发表的第n_u篇文档中第m个词外，第n_u篇文档中属于背景主题B的单词数；表示去除第u个用户发表的第n_u篇文档中第m个词外，预处理后的文本集合D′中属于背景主题B单词数；

步骤4.4、根据式(22)采样辅助变量

式(22)中，GIG(·)为广义逆高斯分布；z表示文档对应的主题；

步骤4.5、重复执行步骤4.1-步骤4.4I₀次，直至所有参数均收敛；

步骤5、根据步骤4迭代得到的收敛结果，利用式(23)和式(24)得到第k个主题的词分布和第u个用户对第k个主题的关注度

式(23)和式(24)中，表示I₀次迭代后的属于第k个主题的所有单词数量；表示I₀次迭代后的第u个用户发表的第k个主题的评论数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于之江实验室;合肥工业大学，未经之江实验室;合肥工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010995705.7/1.html，转载请声明来源钻瓜专利网。