[发明专利]一种微博话题实时监测方法与装置在审
申请号: | 201710531249.9 | 申请日: | 2017-07-03 |
公开(公告)号: | CN107515889A | 公开(公告)日: | 2017-12-26 |
发明(设计)人: | 段东圣;杜翠兰;刘晓辉;查奇文;李扬曦;李睿;沈华伟;邢国亮;张静 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;H04L12/58 |
代理公司: | 工业和信息化部电子专利中心11010 | 代理人: | 于金平 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 话题 实时 监测 方法 装置 | ||
技术领域
本发明涉及计算机应用技术和网络信息领域,特别是涉及一种微博话题实时监测方法与装置。
背景技术
近年来,微博等社会化网络在线服务快速发展,积累了大量的用户言论数据。截止2016年9月,微博月活跃人数已达到2.97亿,较2015年同期相比增长34%;日活跃用户达到1.32亿。目前,新浪微博注册用户数已超过6亿,这些用户之间结成了复杂的关注关系,用户能够在微博上随时随地方便地发布和传播各种信息,可以说互联网已经进入了网民“自媒体”的时代。由于微博用户从一个互联网网站上获取的信息可以立即在自己的微博上发布这些信息,若该微博用户的关注者较多,该条微博内容非常容易引起快速的转发扩散。新浪微博上每天发送微博量近1亿条,当这些信息是一些谣言或涉及国家安全方面的有害信息时,就会形成一些极为负面的社会影响,并可能对国家安全造成严重的威胁。
现有技术中通过阈值判断或峰值判断对微博话题进行异常监测的方法,仅以单一的数值进行异常状况判断,没有考虑到用户使用微博的习惯问题,使得判断结果可能出现不准确或误判的情况。
发明内容
本发明提供一种微博话题实时监测方法与装置,主要应用对预定的微博话题进行基于历史同期数据分时段的对比以判断其是否异常,解决了现有技术没有考虑用户使用微博的习惯的问题,增加异常状况的判断结果准确性,达到准确监测微博话题的目的。
为解决上述技术问题,一方面,本发明提供一种微博话题实时监测方法,包括:获取预定时间段内预定话题对应的全部微博数据;统计所述全部微博数据中预定特征信息的数量;确定所述预定特征信息的数量在所述预定特征信息对应的预定高斯分布模型中所处的数量区间范围;其中,所述预定高斯分布模型是根据所述预定特征信息在所述预定时间段的历史数据构建的;根据所述预定特征信息的数量在其对应的预定高斯分布模型中所处的数量区间范围确定所述预定话题是否异常。
进一步,获取预定时间段内预定话题对应的全部微博数据,包括:实时获取所述预定时间段内微博的全流量数据;根据预设关键词对所述全流量数据进行过滤,得到包含所述预设关键词的一个或多个所述预定话题;获取每个所述预定话题的全部微博数据。
进一步,预定特征信息的数量至少包括以下之一:微博数量,参与用户数量,参与用户的粉丝数量。
进一步,根据所述预定特征信息的数量在其对应的预定高斯分布模型中所处的数量区间范围确定所述预定话题是否异常,包括:
在所述预定特征信息的数量处于所述预定高斯分布模型中的第一区间范围时,确定所述预定话题不存在异常,其中,所述第一区间范围为:以均值为中心,向左、右分别延伸一个标准差的范围;
在所述预定特征信息的数量处于所述预定高斯分布模型中的第二区间范围时,确定所述预定话题存在第一等级的异常,其中,所述第二区间范围为:均值减去一个标准差和均值减去两个标准差之间的范围,和/或,均值加上一个标准差和均值加上两个标准差之间的范围;
在所述预定特征信息的数量处于所述预定高斯分布模型中的第三区间范围时,确定所述预定话题存在第二等级的异常,其中,所述第三区间范围为:均值减去两个标准差和均值减去三个标准差之间的范围,和/或,均值加上两个标准差和均值加上三个标准差之间的范围;
在所述预定特征信息的数量处于所述预定高斯分布模型中的第四区间范围时,确定所述预定话题存在第三等级的异常,其中,所述第四区间范围为:小于均值减去三个标准差对应的范围,和/或,大于均值加上三个标准差对应的范围。
进一步,根据所述预定特征信息的数量在其对应的预定高斯分布模型中所处的数量区间范围确定所述预定话题是否异常之后,还包括:在所述预定话题存在异常的情况下,按照所述预定话题的异常等级向系统管理员发送对应的报警消息。
另一方面,本发明还提供一种微博话题实时监测装置,包括:获取模块,用于获取预定时间段内预定话题对应的全部微博数据;统计模块,用于统计所述全部微博数据中预定特征信息的数量;范围确定模块,用于确定所述预定特征信息的数量在所述预定特征信息对应的预定高斯分布模型中所处的数量区间范围;其中,所述预定高斯分布模型是根据所述预定特征信息在所述预定时间段的历史数据构建的;异常判断模块,用于根据所述预定特征信息的数量在其对应的预定高斯分布模型中所处的数量区间范围确定所述预定话题是否异常。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710531249.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种光源模组及照明装置
- 下一篇:一种陶瓷散热装置