[发明专利]一种分析微博话题演化的模型在审

申请号：	201610878239.8	申请日：	2016-10-09
公开（公告）号：	CN107918611A	公开（公告）日：	2018-04-17
发明（设计）人：	王振飞;刘凯莉;张利莹;郑志蕴;李钝	申请（专利权）人：	郑州大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	暂无信息	代理人：	暂无信息
地址：	450000 河南省郑***	国省代码：	河南;41
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种分析话题演化模型
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种分析微博话题演化的模型，其特征在于，包括以下步骤：

1)微博话题数据的抓取及预处理；

2)建立微博话题主题获取模型MTLDA；

3)将数据划分时间片，在每个时间片利用MTLDA模型完成每个时间片微博话题的主题发现。

4)计算相邻时间片的KL距离，分析话题的演化情况。

2.根据权利1所述的分析微博话题演化模型，其特征在于，所述的数据抓取及预处理通过以下方法获得：

1)去除停用词。将出现频率高，没有太大检索意义的词定义为停用词。将参与同一微博话题的用户所发表的微博评论抓取组合成一个文档，使用停用词表去除微博话题文档中的停用词。

2)对微博话题文档进行分词。采用中国科学院计算技术研究所研制的汉语词法分析系统(Institute of Computing Technology Chinese Lexical Analysis System，ICTCLAS)进行微博数据分词。

3)剔除垃圾用户发布的微博。结合用户的发布微博的周期频率、提及其他用户的比例、包含URL的比例、用户好友数目与其粉丝数目的比例这四个因素来判断是否为垃圾用户。

3.根据权利1所述的分析微博话题演化模型，其特征在于，所述的建立微博话题主题发现模型的方法通过以下方法获得：

S1.设定超参数α，β，γ，β₁

S2.对于每一个微博话题z_i，θ_i～Dir(α)

S3.对于每一个微博话题文档d_i，z_m，n～Mult(θ_m)

S3.1.对于微博文档中的每一个词w_i，Y～Bernoulli(π)

S3.2.判断如果Y＝1，w_m，n～Mult(Ω)；否则，如果Y≠1，

S4.重复步骤S3，直到输出全部主题--词概率列表。

4.根据权利1所述的分析微博话题演化模型，其特征在于，所述的计算相邻时间片的KL距离的方法通过以下方法获得：

KL距离也叫相对熵，是衡量相同事件空间里的两个概率分布的相似情况。本文采用KL距离来对相邻时间片的微博话题进行衡量。设Z₁＝{w₁₁，w₁₂，…，w_1n}和Z₂＝{w₂₁，w₂₂，…，w_2n}是两个相邻时间片中的子话题，P(i)是子话题Z₁中第i个词的概率分布，Q(i)是Z₂子话题中第i个词的概率，两个话题的KL距离公式为：

D(P||Q)=Σiln(P(i)Q(i))P(i)]]>

由公式可推知，P(i)和Q(i)两个概率分布越接近，则两个话题的KL距离越小，说明两个话题越相近。两个相邻的时间片中，若上一个时间片t_i-1的话题与下一个时间片t_i的所有子话题之间KL距离都大于给定的阈值，则定义为新话题产生；若t_i-1的话题与t_i的所有子话题KL距离有大于给定的阈值，也有小于给定的阈值，则定义为子话题分裂。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于郑州大学，未经郑州大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201610878239.8/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种分析微博话题演化的模型在审

专利文献下载