[发明专利]一种顾及时空效应的微博主题提取方法有效
申请号: | 201510669860.9 | 申请日: | 2015-10-13 |
公开(公告)号: | CN105224675B | 公开(公告)日: | 2018-05-22 |
发明(设计)人: | 段炼 | 申请(专利权)人: | 广西师范学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 陈科恒 |
地址: | 530001 广西壮族*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 顾及 时空 效应 主题 提取 方法 | ||
本发明属于舆情监控领域,涉及社交网络用户推荐、社交网络服务推荐及微博主题识别技术分析,尤其涉及一种顾及时空效应的微博主题提取方法。所述提取方法是以主题z、区域r,时间t,词汇w对微博建模,通过模型表达式得到这些参数的具体数值,进而实现微博主题的分类。包括以下步骤:(1)区域主题影响力计算,(2)顾及时空的微博主题建模,(3)微博主题模型参数计算。本发明的有益效果是构建考虑了连续时间和区域影响力权重的时空主题模型,能发现连续时间上微博主题的空间分布和强弱变化,与已有地理主题模型相比,能更加准确地提取微博主题。
技术领域
本发明属于舆情监控领域,涉及社交网络用户推荐、社交网络服务推荐及微博主题识别技术分析,尤其涉及一种顾及时空效应的微博主题提取方法。
背景技术
近来,国内社交平台如新浪微博、腾讯微博等允许用户在所发布的信息中携带其地理位置,这些带有位置信息的微博被称为地理标识微博。挖掘带有地理标识的大规模微博数据,能发现人们的社会移动行为模式、消费习惯、事件时空演变和城市区域功能变化规律等知识,为商业推荐、舆情监控、灾害预警管理等提供有力支撑。但是微博数据具有噪音大,篇幅短和数量巨大等特征,一般文本挖掘方法如SVM或SVD(矩阵奇异分解)难以有效提取微博数据主题。
根据地理区域表达方式的不同,地理主题模型可分为两类,一类利用高斯分布来表达具有相同主题的文档分布区域,这些区域会随着数据集的不同而变化;一类是利用如行政区划表达固定的地理区域,不会随和数据集的不同而变化。在第一类中,有在主题模型中用不同的二维高斯分布表达不同主题的微博分布范围,这种方法能自适应发现不同主题的空间分布区域,但没有考虑区域对微博内容的影响程度;或者通过两个高斯分布分别描述主题在不同经纬度位置上的强度,但无法描述那些在经纬度上不遵从高斯分布的主题;或者采用固定的权重来表达区域对文档主题影响程度,而现实中不同区域对文档主题的影响程度是不同的。在第二类中,有以国家划分地理区域,发现不同事件和人物在不同国家的受关注程度;如有的利用概率潜在语义索引,以州为区域单位划分美国,发现不同主题在不同州的关注程度,并采用了固定权重来表达区域对文档主题影响程度。
在引入时间因素的地理主题模型的已有技术中,有利用在线LDA对微博主题进行提取,但其在主题模型之外采用泊松分布来捕捉主题强度在时间上异常情况,无法在主题模型中利用时间因素来辅助推断微博主题;或者集成区域和时间因素对博客主题进行提取,但它的时间是离散表达的,难以得到连续时间上的微博主题强度。
总的来说,已有时空主题模型没有或仅采用固定的区域影响权重无法准确反映不同区域对微博主题影响的差异性,同时他们将时间要素离散化,难以得到连续时间上的微博主题强度。
发明内容
本发明的发明目的在于针对现有技术中存在的无法准确反映不同区域对微博主题影响的差异性,及难以得到连续时间上的微博主题强度等问题,提供一种基于时空LDA模型的社交网络社区发现方法。
为了实现上述目的,本发明采用的技术方案如下:
一种顾及时空效应的微博主题提取方法,所述提取方法是将微博主题z划分为r个区域,t个时间,w个词汇,包括以下步骤:
(1)区域主题影响力建模:用于量化和描述区域POI数量及区域面积大小,从而判别区域对微博主题的影响程度;所述区域主题影响力模型表达式为:
其中,σ
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西师范学院,未经广西师范学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510669860.9/2.html,转载请声明来源钻瓜专利网。