[发明专利]一种网络舆情监控系统及方法无效
申请号: | 200910214558.9 | 申请日: | 2009-12-31 |
公开(公告)号: | CN101751458A | 公开(公告)日: | 2010-06-23 |
发明(设计)人: | 姚国祥;罗伟其;官全龙;李佩;宋嘎子 | 申请(专利权)人: | 暨南大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 陈燕娴 |
地址: | 510632 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络 舆情 监控 系统 方法 | ||
技术领域
本发明涉及网络信息安全技术,具体涉及一种网络舆情监控系统及方法。
背景技术
随着Internet的迅猛发展,网络信息已经成为人们生活中必不可少的一部分,目前中国网民数量已经超过2亿,中国网页数量也超过了80亿。网络媒体已被公认为继报纸、广播和电视之后的“第四媒体”,网络成为反应社会舆情的主要载体之一。网络舆情与社会舆情相互作用、相互影响,网络舆情与社会舆情在内容表现形态方面具有一致性,网络舆情一定程度上会影响社会舆情的发展趋势,因此网络舆情热点话题的发现具有十分重要的意义。
目前关于网络舆情热点的研究主要是基于自然语言处理技术的词频统计方法的研究,涉及到的技术有未登录词的识别、中英文分词等等,该方法针对热点话题的快速发现,对各种论坛系统进行分类研究,依靠论坛的共享目标、信息互惠、共享环境等多种度量指标,使用多维向量来度量话题活性。但是,这种研究方法无法在不基于历史信息的情况下,针对大量话题快速发现舆情热点话题,具有较长的时间滞后性和较高的计算复杂度。
现实社会中的舆论热点在形成的早期,存在一个意见逐渐在人群中流行的过程,即热点话题,但现实社会中关于话题传播的数据难以采集,发现与监测也无法实现。这是舆情研究相对困难的原因之一。然而现实社会中的热点话题,在互联网上也会形成大量相关信息,同时互联网上的数据可以通过网络爬虫实时采集,这为研究舆论热点问题提供了数据基础。
发明内容
本发明的目的在于克服上述现有技术存在的不足,提供一种网络舆情监控系统,本发明将采集的网页文本数据首先进行分词处理、关键词处理、敏感词处理和聚类分析,从而将网页文本数据处理成标准化结构形式以供舆情服务模块进行处理,有效解决了传统舆情监控系统存在的较长时间滞后性的缺点,舆情服务模块采用数据挖掘来获取热点话题,有效的解决了传统舆情监控系统存在的计算机复杂度较高的缺点,从而保证了热点话题的实时性和准确性。
本发明的另一个目的在于提供上述一种网络舆情监控系统实现舆情监控的方法。
本发明目的通过下述技术方案来实现:一种网络舆情监控系统,包括:舆情采集模块、舆情预处理模块、舆情服务模块、管理控制模块和数据库服务器;
所述舆情采集模块,用于根据采集策略采集论坛网页数据,提取网页文本数据;
所述舆情预处理模块包括:分词处理模块,用于根据数据库服务器中词库的关键词、敏感词及情感倾向词,从网页文本数据分析出关键词、敏感词及情感倾向词;关键词及情感倾向词处理模块,用于依据分词处理模块分析出关键词及情感倾向词对网页文本数据进行过滤,存储关键词及情感倾向词过滤记录;敏感词处理模块,用于依据分词处理模块的敏感词,对关键词及情感倾向词处理模块过滤后的网页文本数据进行过滤;聚类分析模块,用于将敏感词处理模块过滤后的网页文本数据,按照网页所属类别和关键词进行自动聚类分析出论坛言论数据;
所述舆情服务模块包括:内容预警模块,从论坛言论数据分析出带有负面信息的言论;热点分析模块,采用数据挖掘技术,按照舆情处理模块分析出的关键词,从论坛言论数据分析出热点话题。
所述管理控制模块包括:任务管理模块,用于给用户提供舆情服务模块中各模块处理的结果;
用户管理模块,用于设置系统各模块的参数。
所述舆情服务模块还可以包括舆情简报(统计分析)模块,用于对内容预警模块分析出的带有负面信息的言论,和热点分析模块分析出的热点话题进行统计分析,获取舆情简报。
所述舆情服务模块还可以包括舆情检索模块,用于为用户提供论坛信息查询。其中,舆情检索模块可以自动推荐检索关键词,该关键词包括内容预警模块获取的负面信息和热点分析模块分析出热点话题。
上述一种网络舆情监控系统实现舆情监控的方法,包括以下步骤:
(1)舆情采集模块根据采集策略采集论坛网页数据,提取网页文本数据;
(2)分词处理模块根据从词库调用关键词、敏感词及情感倾向词,从网页文本数据分析出关键词、敏感词及情感倾向词;
(3)关键词处理模块依据分词处理模块分析出关键词及情感倾向词对网页文本数据进行过滤,存储关键词及情感倾向词过滤记录;
(4)敏感词处理模块依据分词处理模块的敏感词,对关键词及情感倾向词处理模块过滤后的网页文本数据进行过滤;
(5)聚类分析模块将敏感词处理模块过滤后的网页文本数据,按照网页所属类别和关键词进行自动聚类分析出论坛言论数据;
(6)内容预警模块从论坛言论数据分析出带有负面信息的言论;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于暨南大学,未经暨南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910214558.9/2.html,转载请声明来源钻瓜专利网。