[发明专利]基于社交媒体的突发事件应急信息挖掘方法在审
申请号: | 201610345293.6 | 申请日: | 2016-05-23 |
公开(公告)号: | CN106021508A | 公开(公告)日: | 2016-10-12 |
发明(设计)人: | 王艳东;朱建奇;王腾;郭丰芹 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 胡艳 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于社交媒体的突发事件应急信息挖掘方法,包括步骤:S1采用开放平台API或网页爬虫采集社交媒体数据,社交媒体数据即文档集;S2使用MongoDB集群存储文档集;S3文档集预处理;S4利用LDA标注预处理后的文档集,获得已知样本;S5 已知样本各文档中所有词语构成词语特征集,各词语特征在文档中的词频即该词语特征在该文档中的权重;S6构建短文本实时分类模型;S7采用短文本分类模型对实时突发事件进行分类,预测突发事件的主题;S8根据分类后突发事件的社交媒体数据进行信息挖掘。本发明可自动、快速地实现社交媒体短文本的分类,从而提挖掘突发事件应急信息。 | ||
搜索关键词: | 基于 社交 媒体 突发事件 应急 信息 挖掘 方法 | ||
【主权项】:
基于社交媒体的突发事件分类方法,其特征是,包括步骤:S1采用开放平台API或网页爬虫采集社交媒体数据,社交媒体数据即文档集;S2使用MongoDB集群存储文档集;S3文档集预处理,包括文档去重、文档分词、文档去停用词和去掉词语稀少的文档;S4利用LDA标注预处理后的文档集,获得已知样本,本步骤进一步包括:4.1分别计算预处理后文档集中各文档主题,获得文档‑主题概率矩阵和主题‑词语概率矩阵;4.2遍历文档‑主题概率矩阵,将超过主题概率阈值λ的概率所对应的文档及主题作为已知样本,其中主题概率阈值λ为经验值,已知样本中文档由一系列词语构成;S5已知样本各文档中所有词语构成词语特征集,各词语特征在文档中的词频即该词语特征在该文档中的权重;S6构建短文本实时分类模型,本步骤进一步包括:6.1采用词语特征集及其中各词语特征的权值训练SVM获得SVM分类器,采用格网搜索法枚举一系列SVM的模型参数;6.2采用K‑折交叉验证法逐一验证各模型参数下的SVM分类器,将预报误差最小的模型参数作为最优模型参数,最优模型参数对应的SVM分类器即短文本实时分类模型;S7基于实时突发事件社交媒体数,采用短文本分类模型对实时突发事件进行分类,预测突发事件的主题。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610345293.6/,转载请声明来源钻瓜专利网。