[发明专利]一个基于社交媒体的突发事件多维分析系统有效
申请号: | 201810585216.7 | 申请日: | 2018-06-08 |
公开(公告)号: | CN108897784B | 公开(公告)日: | 2022-08-02 |
发明(设计)人: | 赵吉昌;范锐;许可 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/9532;G06K9/62 |
代理公司: | 北京中创阳光知识产权代理有限责任公司 11003 | 代理人: | 尹振启 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一个 基于 社交 媒体 突发事件 多维 分析 系统 | ||
1.一个基于社交媒体的突发事件多维分析系统,其特征在于包括:情感分析模块、话题分类模块、突发事件发现模块和舆情分析模块;所述情感分析模块,完成对社交媒体文本的情绪分类,进行情感分析,进而对情绪分类,所述分类结果分为愤怒、厌恶、高兴、悲伤和恐惧五类,从情绪角度对突发事件进行舆情分析;所述话题分类模块,完成对社交媒体文本的话题分类:使用朴素贝叶斯方法训练话题分类器,将文本分为娱乐、体育、社会、军事、国际、财经或科技话题,从话题角度对突发事件进行舆情分析;所述突发事件发现模块,完成对某一时间段内社交媒体热点事件的自动化提取,最终检测出的突发事件以词袋方式呈现,为舆情分析模块提供数据基础;所述舆情分析模块,实现对突发事件的自动化多维度舆情分析:从情绪、话题、人群、空间方面全方位多角度对突发事件进行分析;刻画突发事件的情绪分布;统计突发事件的话题类别;从人群的角度进行舆情分析,包括关键用户、性别以及认证用户分析;从空间的角度进行地域分析;从传播的角度进行转发网络分析;
所述话题分类器的具体实现过程为:
步骤2a,针对各类话题选择相关的专业社交媒体账号;
步骤2b,收集专业账号发布的内容文本作为训练数据;
步骤2c,训练话题分类器,针对为话题集合C,cj为所述话题集合C中的任意一个话题,d为一条社交媒体文本,通过分词,d可以被分为(w1,w2,...,wn),其中wi为一个中文词,所述分类器的训练方式为
所述P(w1,w2,...,wn)对于所有类别取值都相同,P(cj)为类先验概率为统一设置数值,所述P(w1,w2,...,wn|cj)为基于朴素贝叶斯分类器的独立性假设等价于所述
为训练集中特征词wi在话题cj中出现的先验概率,其中,为词汇wi在训练集中话题为cj的文本中出现的次数,wq为任意特征词,q为正整数;
所述突发事件发现模块,完成对某一时间段内社交媒体热点事件的自动化提取,为舆情分析模块提供数据基础,具体实现为:
步骤3a,获取当前时间段内的社交媒体文本数据;
步骤3b,对社交媒体文本数据进行过滤与清洗;
步骤3c,根据突发性定义计算并排序过滤后的文本中的突发性词;
步骤3d,对突发性词进行聚类,作为当前的突发事件;
步骤3e,根据突发事件关键词从当前时间段内的文本数据中抽取突发事件相关内容;
步骤3f,根据突发事件及其相关文本数据对突发事件进行过滤和排序;
所述突发事件发现模块中突发性词的计算,具体实现为:
步骤5a,计算当前社交媒体文本集合中出现的频率较高的关键词;
步骤5b,根据历史数据计算具体的突发性关键词,获取当前文本数据集合中出现频次较高但历史数据中出现频次较低的关键词。
2.根据权利要求1所述的一个基于社交媒体的突发事件多维分析系统,其特征在于,对所述突发事件发现模块中社交媒体文本数据实现过滤,具体实现为:
步骤4a,建立一个垃圾分类器,去除掉垃圾文本内容;
步骤4b,去除包含标签多于2个或词数量少于5个的社交媒体文本;
步骤4c,去除完全重复的文本;
步骤4d,使用局部敏感哈希方法去除过于相似的文本。
3.根据权利要求1所述的一个基于社交媒体的突发事件多维分析系统,所述突发事件发现模块中的突发事件过滤与排序,具体实现为:
步骤8a,设置广告关键词名单;
步骤8b,计算突发事件中的每个关键词在其相关社交媒体文本中的平均排位,将其一数值作为突发事件中关键词的位次;
步骤8c,对突发事件进行排序,通过对相应关键词的突发性求和来为每一个突发事件计算分值,分值高的事件将排在前面作为热点。
4.根据权利要求1所述的一个基于社交媒体的突发事件多维分析系统,所述舆情分析模块的具体实现过程为:
步骤9a,使用情绪分类器对每个突发事件的相关社交媒体文本进行情感分析,计算其情绪分布;
步骤9b,使用话题分类器对每个突发事件的相关社交媒体文本进行话题分类,并选取占比最高的一类作为突发事件的话题;
步骤9c,根据突发事件的相关社交媒体用户数据对突发事件进行人群分析,包括关键用户抽取、性别分析、认证用户分析;
步骤9d,根据突发事件的相关社交媒体用户数据对突发事件进行地域分析,计算其中用户的地域分布;
步骤9e,根据突发事件的相关社交媒体文本内容构建转发网络,进行突发事件的传播分析。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810585216.7/1.html,转载请声明来源钻瓜专利网。