[发明专利]基于社交媒体的突发事件应急信息挖掘方法在审

专利信息
申请号: 201610345293.6 申请日: 2016-05-23
公开(公告)号: CN106021508A 公开(公告)日: 2016-10-12
发明(设计)人: 王艳东;朱建奇;王腾;郭丰芹 申请(专利权)人: 武汉大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 代理人: 胡艳
地址: 430072 湖*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于社交媒体的突发事件应急信息挖掘方法,包括步骤:S1采用开放平台API或网页爬虫采集社交媒体数据,社交媒体数据即文档集;S2使用MongoDB集群存储文档集;S3文档集预处理;S4利用LDA标注预处理后的文档集,获得已知样本;S5 已知样本各文档中所有词语构成词语特征集,各词语特征在文档中的词频即该词语特征在该文档中的权重;S6构建短文本实时分类模型;S7采用短文本分类模型对实时突发事件进行分类,预测突发事件的主题;S8根据分类后突发事件的社交媒体数据进行信息挖掘。本发明可自动、快速地实现社交媒体短文本的分类,从而提挖掘突发事件应急信息。
搜索关键词: 基于 社交 媒体 突发事件 应急 信息 挖掘 方法
【主权项】:
基于社交媒体的突发事件分类方法,其特征是,包括步骤:S1采用开放平台API或网页爬虫采集社交媒体数据,社交媒体数据即文档集;S2使用MongoDB集群存储文档集;S3文档集预处理,包括文档去重、文档分词、文档去停用词和去掉词语稀少的文档;S4利用LDA标注预处理后的文档集,获得已知样本,本步骤进一步包括:4.1分别计算预处理后文档集中各文档主题,获得文档‑主题概率矩阵和主题‑词语概率矩阵;4.2遍历文档‑主题概率矩阵,将超过主题概率阈值λ的概率所对应的文档及主题作为已知样本,其中主题概率阈值λ为经验值,已知样本中文档由一系列词语构成;S5已知样本各文档中所有词语构成词语特征集,各词语特征在文档中的词频即该词语特征在该文档中的权重;S6构建短文本实时分类模型,本步骤进一步包括:6.1采用词语特征集及其中各词语特征的权值训练SVM获得SVM分类器,采用格网搜索法枚举一系列SVM的模型参数;6.2采用K‑折交叉验证法逐一验证各模型参数下的SVM分类器,将预报误差最小的模型参数作为最优模型参数,最优模型参数对应的SVM分类器即短文本实时分类模型;S7基于实时突发事件社交媒体数,采用短文本分类模型对实时突发事件进行分类,预测突发事件的主题。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610345293.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top