[发明专利]基于主题概率模型的微博传播群体划分与账户活跃度评估方法有效
申请号: | 201510431015.8 | 申请日: | 2015-07-21 |
公开(公告)号: | CN104991956B | 公开(公告)日: | 2018-07-31 |
发明(设计)人: | 刘琰;陈静;尹美娟;罗军勇;常斌;王煦中;丁文博;温玉辉 | 申请(专利权)人: | 中国人民解放军信息工程大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q50/00 |
代理公司: | 郑州天阳专利事务所(普通合伙) 41113 | 代理人: | 聂孟民 |
地址: | 450001 *** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及基于主题概率模型的微博传播群体划分与活跃度评估方法,有效解决按传播群体划分,将参与微博话题传播的账户划分为多个群组,量化每个群组中活跃的微博账户,方法是,以特定事件的关键词为基础,获取微博具体文本信息以及参与微博传播的账户集合,以单个微博的文本内容以及参与微博的账户集合输入,构造参与人员表,对样本库中的每一条微博基于主题概率生成模型,从构建的词汇表和参与人员表中根据模型中的群体‑主题,主题‑词以及群体‑人抽样出词和参与人员,采用吉布斯抽样的方法进行计算,采用归并排序算法对每个主题下所包含的单词以及每个群体中所包含的人进行排序,本发明方法简单,及时掌握微博热点、情感倾向和舆论引导。 | ||
搜索关键词: | 基于 主题 概率 模型 传播 群体 划分 账户 活跃 评估 方法 | ||
【主权项】:
1.一种基于主题概率模型的微博传播群体划分与账户活跃度评估方法,其特征在于,包括以下步骤:(1)与特定事件相关的微博样本搜集:以特定事件的关键词为基础,基于爬虫技术或微博公共开放平台获取微博具体文本信息以及参与微博传播的账户集合,其中包括微博的原创账户集合,转发账户集合以及评论账户集合;(2)微博样本库中词汇表和参与人员表的构建:以单个微博的文本内容以及参与微博的账户集合输入,首先利用中科院中文分词系统对微博文本进行分词,将微博文本表示成多个关键词的形式,近而形成微博样本库上的词汇表;其次采用分割的方法,原理与分词相同,构造参与人员表;(3)主题概率模型生成:对样本库中的每一条微博d,d=1,2,…,D,基于主题概率生成模型,为每一篇微博文本赋予一个群体编号,然后基于被赋予的群体编号,从构建的词汇表和参与人员表中根据模型中的群体‑主题,主题‑词以及群体‑人抽样出词和参与人员;(4)模型中的参数计算:采用吉布斯抽样的方法对模型中的群体‑人员分布,群体‑主题分布,群体‑人员‑行为分布,群体‑情感分布以及主题‑词分布进行计算,由于参与热门事件的微博传播的账户数目大都以万计,因此采用归并排序算法对每个主题下所包含的单词以及每个群体中所包含的人进行排序,以找到群体中活跃度高的参与者以及最能代表主题的单词。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军信息工程大学,未经中国人民解放军信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510431015.8/,转载请声明来源钻瓜专利网。