[发明专利]一种分析微博话题演化的模型在审
申请号: | 201610878239.8 | 申请日: | 2016-10-09 |
公开(公告)号: | CN107918611A | 公开(公告)日: | 2018-04-17 |
发明(设计)人: | 王振飞;刘凯莉;张利莹;郑志蕴;李钝 | 申请(专利权)人: | 郑州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 450000 河南省郑*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分析 话题 演化 模型 | ||
1.一种分析微博话题演化的模型,其特征在于,包括以下步骤:
1)微博话题数据的抓取及预处理;
2)建立微博话题主题获取模型MTLDA;
3)将数据划分时间片,在每个时间片利用MTLDA模型完成每个时间片微博话题的主题发现。
4)计算相邻时间片的KL距离,分析话题的演化情况。
2.根据权利1所述的分析微博话题演化模型,其特征在于,所述的数据抓取及预处理通过以下方法获得:
1)去除停用词。将出现频率高,没有太大检索意义的词定义为停用词。将参与同一微博话题的用户所发表的微博评论抓取组合成一个文档,使用停用词表去除微博话题文档中的停用词。
2)对微博话题文档进行分词。采用中国科学院计算技术研究所研制的汉语词法分析系统(Institute of Computing Technology Chinese Lexical Analysis System,ICTCLAS)进行微博数据分词。
3)剔除垃圾用户发布的微博。结合用户的发布微博的周期频率、提及其他用户的比例、包含URL的比例、用户好友数目与其粉丝数目的比例这四个因素来判断是否为垃圾用户。
3.根据权利1所述的分析微博话题演化模型,其特征在于,所述的建立微博话题主题发现模型的方法通过以下方法获得:
S1.设定超参数α,β,γ,β1
S2.对于每一个微博话题zi,θi~Dir(α)
S3.对于每一个微博话题文档di,zm,n~Mult(θm)
S3.1.对于微博文档中的每一个词wi,Y~Bernoulli(π)
S3.2.判断如果Y=1,wm,n~Mult(Ω);否则,如果Y≠1,
S4.重复步骤S3,直到输出全部主题--词概率列表。
4.根据权利1所述的分析微博话题演化模型,其特征在于,所述的计算相邻时间片的KL距离的方法通过以下方法获得:
KL距离也叫相对熵,是衡量相同事件空间里的两个概率分布的相似情况。本文采用KL距离来对相邻时间片的微博话题进行衡量。设Z1={w11,w12,…,w1n}和Z2={w21,w22,…,w2n}是两个相邻时间片中的子话题,P(i)是子话题Z1中第i个词的概率分布,Q(i)是Z2子话题中第i个词的概率,两个话题的KL距离公式为:
由公式可推知,P(i)和Q(i)两个概率分布越接近,则两个话题的KL距离越小,说明两个话题越相近。两个相邻的时间片中,若上一个时间片ti-1的话题与下一个时间片ti的所有子话题之间KL距离都大于给定的阈值,则定义为新话题产生;若ti-1的话题与ti的所有子话题KL距离有大于给定的阈值,也有小于给定的阈值,则定义为子话题分裂。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州大学,未经郑州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610878239.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多功能动物实验箱
- 下一篇:一种变化立体空间的宠物床