[发明专利]一种基于语义的网络智能舆情监测系统及其工作方法有效
申请号: | 201210170862.X | 申请日: | 2012-05-29 |
公开(公告)号: | CN102708096A | 公开(公告)日: | 2012-10-03 |
发明(设计)人: | 代松;姬东鸿 | 申请(专利权)人: | 代松 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 武汉天力专利事务所 42208 | 代理人: | 吴晓颖;冯卫平 |
地址: | 430000 湖北省武汉市*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 网络 智能 舆情 监测 系统 及其 工作 方法 | ||
技术领域
本发明属于自然语言处理领域,特别涉及一种基于语义的网络智能舆情监测系统及其工作方法。
背景技术
近年来,互联网发展迅速,作为继电视、广播、报纸之外的第四媒体,已经成为反映社会舆情的一个重要载体。另一方面,由于网络的开放性和虚拟性,网上舆情已经越来越复杂,对现实生活的影响与日俱增,一些重大的网络舆情事件往往对社会产生较大的影响力。舆情监测的目的,即为准确有效地掌握网络舆情现状,加强对网络舆情的及时监测和跟踪,以便准确快速地发现互联网上的各类舆情,产生舆论导向并积极化解舆论危机,对促进社会和企业的健康发展具有重要的现实意义。对政府部门、公众媒体和大型企业来说,如何加强对网络舆情的及时监测,以及时采取措施进行有效应对,成为网络舆情管理的一大难点。
发明内容
本发明就是针对上述背景技术中的不足之处,而提出的一种基于语义的网络智能舆情监测系统及其工作方法,其搜索的结果不是简单的包含某个或某类关键词的网页集合,而是与所设定的监测事件具有相同语义(即在意义上相同)的文本信息,具有较高的准确率。
本发明的目的是通过如下技术措施来实现的。
一种基于语义的网络智能舆情监测系统,该系统包括智能爬虫爬取模块、命名实体抽取模块、概念智能识别模块、基于语义的倾向性分析模块、话题抽取模块和智能统计分析模块,所述智能爬虫爬取模块用于从互联网上采集舆情信息,并存储到数据库中,所述命名实体抽取模块、概念智能识别模块、基于语义的倾向性分析模块、话题自动抽取模块用于对舆情信息进行智能分析和加工,所述智能统计分析模块把舆情信息中经过分析处理的数据以各种形式展现给用户并提供预警。各模块具体功能如下:
智能爬虫爬取模块:传统的舆情监测系统采用关键词或关键词组合的方式进行搜索,该方法存在两个问题:一是基于关键词搜索的准确度不高,结果可能包含大量噪音,例如要搜索“北大”(这里指的是北京大学)的信息,那么包含词条“北大荒”的文本也会被搜索出来;二是传统舆情监测系统的关键词集需人工收集并添加,繁琐且费时。造成以上问题的根本原因是,系统无法真正理解搜索词的意义。本系统采用智能爬虫技术,通过“理解”输入的关键词或句子的意思,在文本中找出相应的内容。
命名实体抽取模块:舆情监测的内容中可能包含人物、地点和组织机构的信息。而传统的舆情监测系统无法自动识别出文本中包含的这些内容,只能由人工进行添加。本系统自动对人物名称、地点名称和组织机构的名称(即命名实体)进行识别,并提取与之相关的信息。全部过程由机器自动完成,无需人工干预。
概念智能识别模块:传统的舆情监测系统采用关键词或关键词组合的方式进行监测,一旦发现信息中包含关键词或其组合,则发布预警信息。然而,利用关键词检索得到的结果可能包含大量噪音,而有用的信息却可能因为不在关键词列表中而被过滤掉。本系统采用基于概念的识别搜索机制,通过自动识别出意义相同的概念,过滤大量无关的信息,从而得到的结果具有较高的准确率。例如,给定一个新闻线索“腐败”,本系统自动监测与“腐败”相关的“行贿受贿”、“公款吃喝”、“买官卖官”等内容。
基于语义的倾向性分析模块:本系统实现了对舆情的倾向性进行自动分析,例如,调查网民对某一事件的评论是正面还是负面的。传统的舆情监测系统无法进行倾向性分析,或者倾向性分析方法是基于关键词的。这种方法的主要问题是准确度较低。利用基于语义的倾向性自动分析技术,本模块实现了对舆情的语义分析,并能给出基于事件的某个侧面的倾向性评价结果。
话题抽取模块:话题就是一个核心事件或活动以及与之直接相关的事件或活动。而一个事件(Event)通常由某些原因、条件引起,发生在特定时间、地点,涉及某些对象(人或物),并可能伴随某些必然结果。通常情况下,可以简单地认为话题就是若干对某事件相关报道的集合。话题分析具体包括话题检测与跟踪,定义为“在新闻专线(Newswire)和广播新闻等来源的数据流中自动发现主题并把主题相关的内容联系在一起的技术”。本模块在海量信息中搜索同一话题的内容,并自动进行归类,同时给出话题名称,方便用户查看。
智能统计分析模块:将舆情监测的结果进行分析汇总,并以图文并茂的形式展现给用户。统计方式可由用户自行定义,如按时间、按来源、按舆情类别、按用户倾向性等。
本发明还提供一种基于语义的网络智能舆情监测系统的工作方法,该方法包括以下步骤:
(1)构建语义本体,用XML文档描述本体,在构建好本体以后,通过解析XML文档,将本体存储到数据库中,便于其它模块使用;具体构建步骤如下
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于代松,未经代松许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210170862.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种白凉粉膏的加工方法
- 下一篇:一种方位伽马测量方法及设备