[发明专利]一种分析微博话题演化的模型在审

专利信息
申请号: 201610878239.8 申请日: 2016-10-09
公开(公告)号: CN107918611A 公开(公告)日: 2018-04-17
发明(设计)人: 王振飞;刘凯莉;张利莹;郑志蕴;李钝 申请(专利权)人: 郑州大学
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 暂无信息 代理人: 暂无信息
地址: 450000 河南省郑*** 国省代码: 河南;41
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 分析 话题 演化 模型
【权利要求书】:

1.一种分析微博话题演化的模型,其特征在于,包括以下步骤:

1)微博话题数据的抓取及预处理;

2)建立微博话题主题获取模型MTLDA;

3)将数据划分时间片,在每个时间片利用MTLDA模型完成每个时间片微博话题的主题发现。

4)计算相邻时间片的KL距离,分析话题的演化情况。

2.根据权利1所述的分析微博话题演化模型,其特征在于,所述的数据抓取及预处理通过以下方法获得:

1)去除停用词。将出现频率高,没有太大检索意义的词定义为停用词。将参与同一微博话题的用户所发表的微博评论抓取组合成一个文档,使用停用词表去除微博话题文档中的停用词。

2)对微博话题文档进行分词。采用中国科学院计算技术研究所研制的汉语词法分析系统(Institute of Computing Technology Chinese Lexical Analysis System,ICTCLAS)进行微博数据分词。

3)剔除垃圾用户发布的微博。结合用户的发布微博的周期频率、提及其他用户的比例、包含URL的比例、用户好友数目与其粉丝数目的比例这四个因素来判断是否为垃圾用户。

3.根据权利1所述的分析微博话题演化模型,其特征在于,所述的建立微博话题主题发现模型的方法通过以下方法获得:

S1.设定超参数α,β,γ,β1

S2.对于每一个微博话题zi,θi~Dir(α)

S3.对于每一个微博话题文档di,zm,n~Mult(θm)

S3.1.对于微博文档中的每一个词wi,Y~Bernoulli(π)

S3.2.判断如果Y=1,wm,n~Mult(Ω);否则,如果Y≠1,

S4.重复步骤S3,直到输出全部主题--词概率列表。

4.根据权利1所述的分析微博话题演化模型,其特征在于,所述的计算相邻时间片的KL距离的方法通过以下方法获得:

KL距离也叫相对熵,是衡量相同事件空间里的两个概率分布的相似情况。本文采用KL距离来对相邻时间片的微博话题进行衡量。设Z1={w11,w12,…,w1n}和Z2={w21,w22,…,w2n}是两个相邻时间片中的子话题,P(i)是子话题Z1中第i个词的概率分布,Q(i)是Z2子话题中第i个词的概率,两个话题的KL距离公式为:

D(P||Q)=Σiln(P(i)Q(i))P(i)]]>

由公式可推知,P(i)和Q(i)两个概率分布越接近,则两个话题的KL距离越小,说明两个话题越相近。两个相邻的时间片中,若上一个时间片ti-1的话题与下一个时间片ti的所有子话题之间KL距离都大于给定的阈值,则定义为新话题产生;若ti-1的话题与ti的所有子话题KL距离有大于给定的阈值,也有小于给定的阈值,则定义为子话题分裂。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州大学,未经郑州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610878239.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top