[发明专利]新闻舆情监测系统有效
申请号: | 201510009993.3 | 申请日: | 2015-01-09 |
公开(公告)号: | CN104504150B | 公开(公告)日: | 2017-09-29 |
发明(设计)人: | 张鹏 | 申请(专利权)人: | 成都布林特信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京天奇智新知识产权代理有限公司11340 | 代理人: | 郭霞 |
地址: | 610000 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种新闻舆情监测系统,该系统包括新闻信息采集模块、新闻数据预处理模块、新闻舆情分析模块和新闻舆情结果显示模块;所述新闻数据预处理模块包括初步过滤子模块、正文提取子模块、分词子模块、特征短语过滤子模块、文本情感倾向性分析子模块、图片分析子模块、以及舆情热度获取子模块;针对新闻数据预处理模块预处理后的数据,通过分布式的云计算方式,使用多种新闻舆情监测算法子模块来获取新闻舆情热点,并对获取的新闻舆情热点进行综合判断分类评估,从而实现对新闻舆情热点话题较高效、准确的监测。 | ||
搜索关键词: | 新闻 舆情 监测 系统 | ||
【主权项】:
一种新闻舆情监测系统,该系统包括新闻信息采集模块(1)、新闻数据预处理模块(2)、新闻舆情分析模块(3)和新闻舆情结果显示模块(4),其中新闻信息采集模块(1)用于对互联网上的新闻舆情信息进行采集,获取新闻数据;新闻数据预处理模块(2)用于将新闻信息采集模块(1)获取的新闻数据中的无用信息去除,并对去除了无用信息的所述新闻数据进行整理;新闻舆情分析模块(3)以新闻数据预处理模块(2)整理的新闻数据为基础,采用多个新闻热点发现子模块发现新闻舆情热点;新闻舆情结果显示模块(4)以图表或报告形式输出新闻舆情分析结果,实现用户交互功能;所述新闻信息采集模块(1)用于根据指定的关键词、来源URL或信息主题,使用基于链接分析的搜索引擎网络爬虫方法,通过多线程下载队列并发地自动采集多种类型的新闻舆情信息;其中,所述多种类型的新闻舆情信息至少包括新闻的文本信息和/或图片信息;并且所述新闻数据预处理模块(2)包括:初步过滤子模块(2a)、正文提取子模块(2b)、分词子模块(2c)、特征短语过滤子模块(2d)、文本情感倾向性分析子模块(2e)、图片分析子模块(2f)和舆情热度获取子模块(2g);所述初步过滤子模块(2a),用于对新闻数据中的信息进行初步过滤,清除所述新闻数据中的噪声,对每条新闻数据进行以下处理:步骤2a‑1,对于每条新闻数据,按照标题进行语义分析,检测出网络中与该条新闻数据相似的所有新闻数据,得到该条新闻数据的相似组;如果未发现与该条新闻数据相似的新闻数据,则该条新闻数据的相似组为其本身;步骤2a‑2,对于每条新闻数据,将网络中所有位置出现的该条新闻数据的相似组中所有新闻数据的总数量除以发布该条新闻数据的相似组中所有新闻数据的网络地址的总数量,得到该条新闻数据的空间重复度值S1;步骤2a‑3,对于每条新闻数据,计算网络中出现的该条新闻数据的相似组中所有新闻数据的总数量,得到该条新闻数据的时间重复度值S2;步骤2a‑4,根据每条新闻数据的空间重复度值S1和时间重复度值S2计算该条新闻数据的综合重复度值S,并进行阈值判断,如果所述综合重复度值S超过阈值,则过滤掉该条新闻数据及其相似组;其中,所述综合重复度值S通过以下公式计算:S=(log2(S1+50))1/2+(log2(S2+20))1/2+((lgS1)*(lgS2))1/4。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都布林特信息技术有限公司,未经成都布林特信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510009993.3/,转载请声明来源钻瓜专利网。
- 上一篇:一种数据聚合查询的方法及装置
- 下一篇:一种视频检索方法及装置