[发明专利]全网爱国舆情事件识别及流行度跟踪方法有效
申请号: | 201911238228.3 | 申请日: | 2019-12-06 |
公开(公告)号: | CN111191096B | 公开(公告)日: | 2021-08-03 |
发明(设计)人: | 蓝汉林;陈中天;陈汉聪;王文欢 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/35 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 爱国 舆情 事件 识别 流行 跟踪 方法 | ||
一种全网爱国舆情事件识别及流行度跟踪方法,首先使用网络爬虫系统爬取全网热门新闻网站和社交媒体,通过BERT模型判断话题是否与爱国主义相关,并判断发文者对国家的态度,分别计算话题在不同网站和平台的流行度,然后将相同话题的内容聚合在一起,得出此话题在全网的流行度,如果事件流行度超过阈值或者暴增,系统通过LOF算法来识别突发热点事件,并对事件持续跟踪;最后,通过收集事件相关的网络活动,在事件平息之后给出相应的事件报告。本发明可以有效识别和跟踪网络上有关爱国主义的舆情。
技术领域
本发明属于计算机技术和舆情监测领域,涉及一种基于集成方法的舆情事件识别和跟踪系统,尤其是爱国舆情事件识别及流行度跟踪方法。
背景技术
随着互联网和智能终端设备的发展,“两微一端”被广泛使用,自媒体的时代到来了,每个个体都可以成为报道着和传话人,信息的数量以前所未有的速度膨胀着,政府机关越来越难通过网络去真正了了解公众的感受和想法。因此,设计一套系统收集和跟踪公众在一些爱国舆情事件中的态度是十分重要的。
发明内容
为了可以有效识别和跟踪网络上有关爱国主义的舆情,本发明提供了一种全网爱国舆情事件识别及流行度跟踪方法。
为了解决上述技术问题,本发明提供如下的技术方案:
一种全网爱国舆情事件识别及流行度跟踪方法,包括以下步骤:
步骤1,建立全网数据采集系统,使用网络爬虫获取热门新闻网站和社交媒体内容,过程如下:
1.1使用基于Hadoop的分布式网络爬虫系统,分布于不同服务器上的分系统分别爬取不同的网站最后将数据聚合在一起;
1.2爬取过程中,将目标网站分为两大类:新闻网站和社交网络,新闻网站包括人民网、新浪新闻、新华网、凤凰资讯、腾讯新闻、网易新闻、搜狐新闻和今日头条;对新闻媒体爬取的内容有:发文时间、标题、发文内容、浏览量、评论数和评论内容;社交媒体包括新浪微博、豆瓣、知乎、微信公众号、百度贴吧、哔哩哔哩、抖音和快手;对社交网络爬取内容有:发布时间、发布内容、点赞数、评论数、评论内容、用户信息、用户之间的社交关系网络;
1.3建立基于Hadoop和MySQL关系数据库,将以上数据结构化并存入数据库;
步骤2,针对在步骤1中获取的文本内容,使用预先训练的BERT模型,将文本进行分类并判断是否和爱国主义相关,并将其中和爱国主义相关的内容按话题分类存储;将话题中的文本内容通过BERT模型判断作者对国家的态度或情感,是正面、中立还是负面的,并汇总形成统计报告;
步骤3,计算特定事件相关话题的流行度,过程如下:
3.1在步骤2中,所有相关的爱国主义话题被统计储存在一起,每个话题在不一样的网站或平台的流行度不同,其中第i个网站中某个话题的流行度计算公式如下:
其中pi(t)表示在t时刻时这一话题的流行度,ci(t)表示在t时刻时出现的这一话题相关网络行为,包括发文、评论、点赞、转发等等,Aci(t)表示在t时刻这个网站日常平均网络行为;
3.2在所有网站或平台的流行度被计算以后,将流行度加总在一起就可以得到这一事件相关话题的全网流行度,计算公式为其中P(t)表示这一话题的全网流行度,n表示统计的网站或者平台的数量;
步骤4,突发热点事件识别,过程如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911238228.3/2.html,转载请声明来源钻瓜专利网。