[发明专利]基于主题概率模型的微博传播群体划分与账户活跃度评估方法有效
申请号: | 201510431015.8 | 申请日: | 2015-07-21 |
公开(公告)号: | CN104991956B | 公开(公告)日: | 2018-07-31 |
发明(设计)人: | 刘琰;陈静;尹美娟;罗军勇;常斌;王煦中;丁文博;温玉辉 | 申请(专利权)人: | 中国人民解放军信息工程大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q50/00 |
代理公司: | 郑州天阳专利事务所(普通合伙) 41113 | 代理人: | 聂孟民 |
地址: | 450001 *** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 主题 概率 模型 传播 群体 划分 账户 活跃 评估 方法 | ||
1.一种基于主题概率模型的微博传播群体划分与账户活跃度评估方法,其特征在于,包括以下步骤:
(1)与特定事件相关的微博样本搜集:以特定事件的关键词为基础,基于爬虫技术或微博公共开放平台获取微博具体文本信息以及参与微博传播的账户集合,其中包括微博的原创账户集合,转发账户集合以及评论账户集合;
(2)微博样本库中词汇表和参与人员表的构建:以单个微博的文本内容以及参与微博的账户集合输入,首先利用中科院中文分词系统对微博文本进行分词,将微博文本表示成多个关键词的形式,近而形成微博样本库上的词汇表;其次采用分割的方法,原理与分词相同,构造参与人员表;
(3)主题概率模型生成:对样本库中的每一条微博d,d=1,2,…,D,基于主题概率生成模型,为每一篇微博文本赋予一个群体编号,然后基于被赋予的群体编号,从构建的词汇表和参与人员表中根据模型中的群体-主题,主题-词以及群体-人抽样出词和参与人员;
(4)模型中的参数计算:采用吉布斯抽样的方法对模型中的群体-人员分布,群体-主题分布,群体-人员-行为分布,群体-情感分布以及主题-词分布进行计算,由于参与热门事件的微博传播的账户数目大都以万计,因此采用归并排序算法对每个主题下所包含的单词以及每个群体中所包含的人进行排序,以找到群体中活跃度高的参与者以及最能代表主题的单词。
2.根据权利要求1所述的基于主题概率模型的微博传播群体划分与账户活跃度评估方法,其特征在于,包括以下步骤:
1)、与事件相关的微博样本采集:
与特定事件的相关微博样本应当具有相关性,包括能够描述特定事件的关键词的微博或具有相同的HashTag的微博及其相关转发和评论微博,微博样本的采集基于宽度优先搜索获取与特定事件相关的微博及其转发和评论微博,采用爬虫技术,首先根据网页链接下载微博网页、解析页面结构并提取微博文本信息及其他能够描述微博的元数据信息,以获取的微博为起点,对其相关的转发微博及其评论微博和参与微博的传播的账户信息,同样利用爬虫技术,获取相关数据;或是调用新浪公共开放平台,调用微博官方对外提供的API函数获取微博文本信息及参与其传播的账户的信息,为有利于对事件传播中的群体划分,在选取微博样本时遵循的原则为:选取转发数和评论数不为0的微博;
样本搜集的内容应包括微博表示号、微博文本内容、微博账户标识号、 参与微博传播的账户集合;
2)、微博样本库中词汇表和参与人员表的构建:
由于原始微博样本文字比较随意,在建模前要对微博样本数据进行预处理将微博文本转换成关键词集合的表述形式,同时构建基于样本库的词汇表和参与人员表,判断每个微博样本的情感极性,情感极性分为三种:积极的,消极的和中性的:
(1)文本分词,利用正则表达式去除文本中的无用的HTML标签,然后利用中科院中文分词系统ICTCLAS,对文本进行分词,将微博文本转化成词向量;
(2)基于情感词典对微博文本进行情感极性判定,考虑到普适的情感词典缺少专门针对微博的情感词汇和表情符号,而微博文本中经常出现微博平台提供的表情符来表达博主的情感,在普适情感词典的基础之上添加微博表情符,将微博的表情符转化成对应的情感语义词;
(3)去除停用词,停用词指的是代词和表示时间的常用词,采用基于停用词字典的方法将停用词去除,当去除停用词后,微博内容为空,则舍去这样的微博;
(4)构建样本库中的词汇表,首先初始化一个词典,包括两个内容:词的编号和具体的词;以每条微博的词向量为起点,依次查询词向量中的关键词,是否存在于词典中;当存在,则将具体的词转化成词典对应的编号;当不存在,则将词添加到词典当中去,同时将词向量中具体的词转化成词典对应的编号;重复以上步骤,直到样本库中的每篇文本遍历完为止,并构建样本库中的参与人员表;
3)主题概率模型生成:
对样本库中的每一条微博d,d=1,2,…,D,基于主题概率生成模型,为每一篇微博文本赋予一个群体编号,然后基于被赋予的群体编号,从构建的词汇表中抽样出词汇:
(1)模型中的变量:
模型中有两种变量,即在样本库中实际可观察到的变量和隐含在样本库中的变量,其中隐含变量:社团C(1,2,…,M)和话题Z(1,2,…,K),可观察到的变量:文档中出现的单词W;共享这篇文档的用户集合u;用户共享这篇文档的行为方式b;文档的情感极性l;
(2)模型中的超参数:
γ表示社团成员行为分布的狄利克雷分布的超参数;
δ表示社团成员活跃度的狄利克雷分布的超参数;
μ表示社团的活跃度狄利克雷分布的超参数;
β表示主题词分布的狄利克雷分布的超参数;
α表示社团主题分布的狄利克雷分布的超参数;
ε表示不同情感极性在社团中权重的狄利克雷分布的超参数;
(3)参数:
当有K个隐含主题时,Dir(·)表示狄利克雷分布,词汇表中分配给主题K的单词的概率,服从Dir(β),k=1,2,...,K;
当有M个社团和S个情感极性,每个社团与四个参数有关:话题矩阵θ,用户的参与矩阵λ,社团情感矩阵π,用户在社团中行为矩阵η,在社团m中,m=1,2,…,M:
θm表示社团m的主题分布,代表不同主题在社团m中的权重,
λm表示不同用户在社团m中的活跃度矩阵,λm|δ~Dir(δ);
πm表示不同情感极性在社团m中权重,πm|ε~Dir(ε);
ηm,p表示社团m中成员p的行为分布,ηm,p|γ~Dir(γ);
ψ表示的在整个语料库中社团的活跃度,ψ|μ~Dir(μ);
对于语料库中的每一篇文档d,d=1,2,…,D,Mult(·)表示多项式分布,生成过程如下:
①.为文档d分配一个社团cd:cd|ψ~Mult(ψ);
②.当有Ud用户共享文档d时,设p=1,2,…,Ud,对于每一个与文档d相关的用户Ud,p,生成过程如下:
a.从社团cd的参与矩阵中抽取用户Ud,p:
b.选择用户Ud,p的一个行为模式,
③.当一篇文档有Nd个词汇,对于在文档d中的每个词汇wd,n(n=1,2,…,Nd),生成过程如下:
a.从第cd个社团的主题矩阵中抽样一个主题:
b.根据抽样出的主题zd,n,从主题单词分布中抽样出一个单词:
④.从cd社团的情感矩阵中抽取一个情感极性:
由上可知,BP-STC的联合概率分布如式(1)所示:
p(u,c,z,l,w|δ,μ,β,ε,α)
=p(u|c,λ)p(c|ψ)p(z|c,θ)p(l|c,π)p(w|z,φ)
p(λ|δ)p(ψ|μ)p(θ|α)p(π|γ)p(φ|β) 式(1);
4)模型的推导和参数计算:
模型的训练与推导采用吉布斯抽样的方法,在模型中,一篇文本只能被分配给一个社团,为了方便模型的推导:
对于一篇文档d,分配给它的社团的后验条件概率为:
其中,Dm-d表示被分配给社团m的总的文档的数目,除文档d,D表示文档的总数目,表示出现在社团m的文档中并分配给主题k的单词的总数,除文档d,Zd表示文档d的主题的集合,Sd,k表示文档d中分配给主题K的单词总数,社团m中属于情感极性s的总的文档的数目,ld表示文档d的情感极性的集合,表示用户p参与社团m的次数除了在d篇文档中出现的次数,ud表示参与文档d交互的用户的集合,ed表示参与文档d交互的总的人数;
当文档d分配给社团cd时,文档d中的第i个单词,它的隐含主题的zd,i的条件后验概率如下:
其中,t表示文档d中第i个单词,zt表示文档d中第i个单词被分配的主题;
对上面的式(2)和式(3)反复的迭代,最终达到抽样结果稳定状态,每个参数从最后稳定状态进行计算:
至此,模型通过吉布斯求解出微博样本库中社团活跃度ψ,以及每个参与社团的用户活跃度λ,每个社团中感兴趣的话题分布θ,情感分布π和社团中每个用户的行为分布η,采用归并排序算法对每个主题下所包含的单词Φk,v以及每个群体中所包含的人λm,p进行排序,以找到群体中活跃度高的参与者以及最能代表主题的单词,同时根据ηm,p,b来描述社团中活跃度高的用户的行为表现,从而实现基于主题概率模型的微博传播群体划分与账户活跃度评估。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军信息工程大学,未经中国人民解放军信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510431015.8/1.html,转载请声明来源钻瓜专利网。