[发明专利]一种考虑用户在线关系网络的舆情主题发现方法在审

专利信息
申请号: 202010995705.7 申请日: 2020-09-21
公开(公告)号: CN112100518A 公开(公告)日: 2020-12-18
发明(设计)人: 张吉;姜元春;孙见山;余婷;梁瑞成;单海军;李怡;钱洋;柴一栋 申请(专利权)人: 之江实验室;合肥工业大学
主分类号: G06F16/9536 分类号: G06F16/9536;G06Q50/00;G06F40/216;G06F40/289
代理公司: 安徽省合肥新安专利代理有限责任公司 34101 代理人: 陆丽莉;何梅生
地址: 310012 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 考虑 用户 在线 关系 网络 舆情 主题 发现 方法
【权利要求书】:

1.一种考虑用户在线关系网络的舆情主题发现方法,其特征是按如下步骤进行:

步骤1、构建用户在线关系网络G:

步骤1.1、获取U个用户分别发表的Nu篇文档中的文本信息并构成文本集合D,去除所述文本集合D中所有标点符号并进行分词操作后,再去除停用词和低频词,从而得到预处理后的包含U×Nu篇文档的文本集合D′;其中,预处理后的第u个用户发表的Nu篇文档记为表示第u个用户发表的第nu篇文档,将第nu篇文档中的词集合记为其中,表示第u个用户发表的第nu篇文档中第m个单词,表示第u个用户发表的第nu篇文档中的词个数;

步骤1.2、根据用户-帖子二部图,采用随机游走方法获取用户在线关系网络G;

步骤1.3、获取所述用户在线关系网络G中与第u个用户最近邻的N个邻居用户;

步骤2、指定预处理后的文本集合D′中的主题个数为K;

步骤3、设计有参贝叶斯模型,并通过分析用户在所述用户在线关系网络G中的文本信息与用户链接信息,生成文本对应主题;

步骤3.1、按照式(2)分别生成所述用户在线关系网络G中的背景主题词分布φB

式(2)中,~表示服从,π表示单词从主题词分布中生成概率的期望;且π服从超参数为γ的Beta分布;1-π表示单词从背景主题词分布φB中生成概率的期望;β是狄利克雷分布的超参数,且服从狄利克雷Dirichlet分布,并有:

式(3)中,表示第v个单词在相应背景主题下所有词所占权重,V是预处理后的文本集合D′中所有不重复词的总数;

步骤3.2、对于所述用户在线关系网络G中的K个主题,按照式(4)分别生成第k个主题的词分布从而得到用户在线关系网络G中所有主题下的词分布记为

式(4)中,服从狄利克雷Dirichlet分布,并有:

式(5)中,φkv表示第v个单词在第k个主题下所有词所占比重;

步骤3.3、对于所述用户在线关系网络G中的每个用户:

步骤3.3.1、按照式(6)生成第u个用户的主题分布

式(6)中,α为先验分布超参数;服从狄利克雷Dirichlet分布,并有:

式(7)中,表示第u个用户发表的第nu篇文档的主题分布情况;

步骤3.3.2、对用户发表的每篇文档:

按照式(8)生成第u个用户发表的第nu篇文档的主题

式(8)中,服从参数为的多项式Multi分布;

按照式(9)生成单词的主题-背景主题指示变量

式(9)中,是二元指示变量,且服从伯努利Bernoulli分布,并用于选择第u个用户发表的第nu篇短文本中的第m个单词是从背景主题词分布中生成还是从主题词分布中生成;当时,表示第u个用户发表的第nu篇文档中第m个单词从主题词分布中产生,当时,表示第u个用户发表的第nu篇文档中第m个单词从背景主题词分布中产生;

按照式(10)生成短文本中每个词:

式(10)中,表示第u个用户发表的第nu篇文档对应主题的词分布,第u个用户发表的第nu篇文档中第m个单词服从参数为或的多项式Multi分布;

步骤3.4、根据式(11)创建存在链接的第u个用户和第u′个用户之间链接指示变量yu,u′,且yu,u'∈{1,-1}:

式(11)中,sign(·)为符号函数,为哈达玛积;η表示K维参数的分类器;并有:

式(12)中,ηk表示第k个主题下的分类器;

式(11)中,为K维向量,并有:

式(13)中,表示第u个用户发布的文档中第k个主题的所占比例,并有:

式(14)中,表示第u个用户发表的第k个主题的文档数;

步骤4、基于所述用户在线关系网络G及文本集合D′,初始化所有参数,包括:引入的辅助变量λu,u'=1,利用均匀分布为每个用户的每条文档指定主题,对每条回帖的每个词指定是否从背景舆情主题中生成,并对用户主题分布、各主题下词分布、链接分布进行参数推断:

步骤4.1、根据式(15)采样K维参数的分类器η:

式(15)中,∝表示正比于,N(·)为多元高斯分布,μ为多元高斯分布的均值向量;并有:

式(16)中,c为正则化参数;

式(15)中,∑为多元高斯分布的协方差矩阵;并有:

式(17)中,σ表示标准差;

式(15)中,链接指示变量yu,u'与辅助变量λu,u'的联合概率分布为:

式(18)中,ζu,u'为损失函数,并有:

步骤4.2、根据式(20)采样第u个用户发表的第nu篇文档中的主题

式(20)中,表示除第u个用户发表的第nu篇文档对应的主题外的主题;表示除第u个用户发表的第nu篇文档对应的单词外的单词;表示除第nu篇文档以外,第u个用户发表的第k个主题的所有文档数量;表示除第nu篇文档以外,第u个用户发表的第k个主题的所有单词数量;表示属于第k个主题的所有单词数量;表示第u个用户发表的发表的所有文档数;exp(·)为指数函数;Γ(·)为伽马函数;

步骤4.3、根据式(21)采样主题-主题指示变量

式(21)中,表示去除第u个用户发表的第nu篇文档中第m个词外,属于背景主题B的单词数;表示去除第u个用户发表的第nu篇文档中第m个词外,第nu篇文档中属于第u个用户发表的第nu篇文档的主题的单词数;表示去除第u个用户发表的第nu篇文档中第m个词外,预处理后的文本集合D′中属于第u个用户发表的第nu篇文档的主题的单词数;表示去除第u个用户发表的第nu篇文档中第m个词外,预处理后的文本集合D′中属于K个主题的单词数;表示去除第u个用户发表的第nu篇文档中第m个词外,第nu篇文档中属于背景主题B的单词数;表示去除第u个用户发表的第nu篇文档中第m个词外,预处理后的文本集合D′中属于背景主题B单词数;

步骤4.4、根据式(22)采样辅助变量

式(22)中,GIG(·)为广义逆高斯分布;z表示文档对应的主题;

步骤4.5、重复执行步骤4.1-步骤4.4I0次,直至所有参数均收敛;

步骤5、根据步骤4迭代得到的收敛结果,利用式(23)和式(24)得到第k个主题的词分布和第u个用户对第k个主题的关注度

式(23)和式(24)中,表示I0次迭代后的属于第k个主题的所有单词数量;表示I0次迭代后的第u个用户发表的第k个主题的评论数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室;合肥工业大学,未经之江实验室;合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010995705.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top