[发明专利]一种分析微博话题演化的模型在审

申请号：	201610878239.8	申请日：	2016-10-09
公开（公告）号：	CN107918611A	公开（公告）日：	2018-04-17
发明（设计）人：	王振飞;刘凯莉;张利莹;郑志蕴;李钝	申请（专利权）人：	郑州大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	暂无信息	代理人：	暂无信息
地址：	450000 河南省郑***	国省代码：	河南;41
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种分析话题演化模型
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种分析微博话题演化的模型，属于新闻传播与计算机技术的交叉领域。

背景技术

互联网、物联网的快速发展导致数据出现爆炸式增长，根据互联网数据中心的报告，2012年全球数据总量为2.7ZB，到2020年将达到35ZB，庞大的数据量宣告大数据时代的到来。医疗、交通、购物等各个领域都面临着大数据时代所带来的各种挑战。特别是社交网络的兴起，使得人们面临着更加庞大、复杂的数据，同时，社交网络大数据成为目前研究的重点。社交网络是指人与人之间，组织与组织之间进行的信息交流而形成的关系网。社交网络大数据具有较强的实时性和多样性，包含人们对于各种时事的看法，因此，社交网络大数据成为信息爆炸时代一个亟待研究的热点。

微博内容的实时性、多样性和庞大的用户数目使其成为热门的社交网络平台。微博通过点赞、评论、转发等丰富的参与方式吸引越来越多的使用者。微博话题的出现也将微博热度再度提升，微博用户通过微博话题实时参与各种社会现象的讨论。随着时间推移，人们对于话题的关注点也会发生变化，而及时掌握不同时刻的话题关注点，有助于追踪用户的喜好和掌握话题的发展趋势，同时对于某时刻演化出的敏感话题给予及时控制，对于社会舆情预警有很大的帮助。

发明内容

本发明的目的是提供一种分析微博话题演化的模型，以便更好的实现对微博话题发展趋势的掌握。

为实现上述目的，本发明实施例提供以下技术方案：

1微博话题数据抓取及预处理

1)去除停用词。将出现频率高，没有太大检索意义的词定义为停用词。将参与同一微博话题的用户所发表的微博评论抓取组合成一个文档，使用停用词表去除微博话题文档中的停用词。

2)对微博话题文档进行分词。采用中国科学院计算技术研究所研制的汉语词法分析系统(Institute of Computing Technology Chinese Lexical Analysis System，ICTCLAS)进行微博数据分词。

3)剔除垃圾用户发布的微博。结合用户的发布微博的周期频率、提及其他用户的比例、包含URL的比例、用户好友数目与其粉丝数目的比例这四个因素来判断是否为垃圾用户。

2微博话题主题获取模型

考虑到微博话题去除停用词之后仍旧存在一些背景词，对LDA模型进行改进，形成微博主题模型(MTLDA)，实现对微博话题演化的分析研究。微博主题模型过程是，首先按照微博话题将抓取到的微博组合成文档形式，对每一个文档d，以α为超参数，获得每个微博话题文档下子话题的多项式分布θ_i～Dir(α)；其次以β为超参数，将背景词考虑在内时，计算以γ为超参数的Dirichlet分布π～Dir(r)，获得对背景词的断定Y～Bernoulli(π)，若Y＝0，获得每个子话题下微博词的多项式分布通过多项式分布z_m，n～Mult(θ_m)，得到主题标签。最后根据主题标签，若Y≠1，利用多项分布得到该主题下的词分布；若Y＝1，则微博词的分布按照Ω～Dir(β₁)，根据得到的主题标签，利用多项分布w_m，n～Mult(Ω)得到该主题下的词分布。

进一步地，所述的微博话题发现方法为：

S1.超参数α，β，γ，β₁

S2.对于每一个微博话题z_i，θ_i～Dir(α)

S3.对于每一个微博话题文档d_i，z_m，n～Mult(θ_m)

S3.1.对于微博文档中的每一个词w_i，Y～Bernoulli(π)

S3.2.判断如果Y＝1，w_m，n～Mult(Ω)；否则，如果Y≠1，

S4.重复步骤S3，直到输出全部主题--词概率列表。

3KL距离

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于郑州大学，未经郑州大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201610878239.8/2.html，转载请声明来源钻瓜专利网。