[发明专利]舆情信息动态监控方法在审
申请号: | 201710441942.7 | 申请日: | 2017-06-13 |
公开(公告)号: | CN107239563A | 公开(公告)日: | 2017-10-10 |
发明(设计)人: | 张鹏 | 申请(专利权)人: | 成都布林特信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京天奇智新知识产权代理有限公司11340 | 代理人: | 杨春 |
地址: | 610000 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 舆情 信息 动态 监控 方法 | ||
技术领域
本发明涉及搜索引擎,特别涉及一种舆情信息动态监控方法。
背景技术
互联网已经成为人们获取信息的途径,用户通过互联网这个信息平台,能够表达自己对某些事件、现象以及政策的观点。另一方面,也涌入了反动、黄色以及网络犯罪方面的内容。现有技术对于互联网信息监控方面已经将网络搜索、数据挖掘、智能分析以及舆情监控等方面的技术进行了一定程度的提升,设计、实现了许多网络话题系统。但整体解决方案与系统化的科学解释、详细描述、准确预测以及实时控制还需要较大地改进。
发明内容
为解决上述现有技术所存在的问题,本发明提出了一种舆情信息动态监控方法,包括:
根据用户提供的源网站和主题信息进行开源数据采集,并将获取的网页数据存储至本地;
对采集过程获取的网页数据进行分析,对多样化的互联网信息进行归一化处理,并对于前期网络页面数据采用文件形式进行存放,对于分析后的结果进行数据库存储。
优选地,所述数据采集之前,该方法还包括:
由用户给出关键词的组合规则,一方面通过搜索引擎进行搜索,另一方面对网站版面通过爬取进程过滤采集数据;对于搜索引擎的搜索结果,对由关键词检索到的URL进行顺序采集;对于指定的关注网站,要求用户指定到版面的URL或者提供逐个添加该网站的各版面URL的界面;按版面优先级逐个将各版面列出的话题增量采集。
优选地,所述数据采集之后,该方法还包括:经过去重、去噪,抽取相关信息,建立全文索引。
优选地,每个站点W对应一个独立的爬取进程w,当站点W的数据量大时,启动多个爬取进程的进程w1、w2、...、wn来分工完成数据采集,站点爬取进程根据事务管理器分发的事务,获取指定事务的Web页面并进行页面核心内容抽取,对于抽取得到的URL按照指定流程进行跳转,对于抽取的核心文本内容存储在数据库。
优选地,事务管理器将每个站点根据数据量和访问限制划分为几个子事务,根据各个爬取进程部署机器的负载情况,动态地将子事务分发给各个爬取进程;按照指定的时间间隔来调度爬取进程开始采集事务,如果站点要求登录之后才允许采集数据,并且单个ID被多个爬取进程共用而导致该ID触发站点的访问限制,则账户管理器统一维护一个资源池,包括可用的ID信息,以及该ID当前已经被使用的次数以及时间戳;当某个爬取进程需要使用ID来访问页面时,首先向账户管理器申请一个ID,账户管理器检索资源池中尚未达到限制阈值的ID并返回给爬取进程使用,同时将该ID的访问次数递增并更新访问时间戳;
当站点对每个IP限制一定时间内的访问次数时,使用代理地址进行访问;代理地址映射单元首先分配代理地址;然后检测代理地址的网络QoS;当某个爬取进程申请使用代理地址时,代理地址映射单元检索资源池中尚未达到频率限制阈值且网络质量最好的代理地址返回给爬取进程,同时将该IP的使用计数加1并更新访问时间戳;定时扫描资源池中代理地址的连通情况,记录各个代理地址的超时时间,并将无效的代理地址清除出资源池。
本发明相比现有技术,具有以下优点:
本发明提出了一种舆情信息动态监控方法,完善了基于搜索引擎的数据采集过程,并采用高效的数据挖掘算法对舆情信息进行实时监控。
附图说明
图1是根据本发明实施例的舆情信息动态监控方法的流程图。
具体实施方式
下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明,但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定,并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。
本发明的一方面提供了一种舆情信息动态监控方法。图1是根据本发明实施例的舆情信息动态监控方法流程图。
本发明包含数据采集、舆情分析两个模块。数据采集包括根据用户提供的源网站和主题信息进行开源数据采集,并将获取的网页数据存储至本地。舆情分析包括对采集过程获取的网页数据进行分析,对多样化的互联网信息进行归一化处理,并对于前期网络页面数据采用文件形式进行存放,对于分析后的结果进行数据库存储。采用Web服务器为用户提供浏览器方式的界面,便于用户信息查询和操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都布林特信息技术有限公司,未经成都布林特信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710441942.7/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置