[发明专利]舆情信息动态监控方法在审
申请号: | 201710441942.7 | 申请日: | 2017-06-13 |
公开(公告)号: | CN107239563A | 公开(公告)日: | 2017-10-10 |
发明(设计)人: | 张鹏 | 申请(专利权)人: | 成都布林特信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京天奇智新知识产权代理有限公司11340 | 代理人: | 杨春 |
地址: | 610000 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 舆情 信息 动态 监控 方法 | ||
1.一种舆情信息动态监控方法,其特征在于,包括:
根据用户提供的源网站和主题信息进行开源数据采集,并将获取的网页数据存储至本地;
对采集过程获取的网页数据进行分析,对多样化的互联网信息进行归一化处理,并对于前期网络页面数据采用文件形式进行存放,对于分析后的结果进行数据库存储。
2.根据权利要求1所述的方法,其特征在于,所述数据采集之前,该方法还包括:
由用户给出关键词的组合规则,一方面通过搜索引擎进行搜索,另一方面对网站版面通过爬取进程过滤采集数据;对于搜索引擎的搜索结果,对由关键词检索到的URL进行顺序采集;对于指定的关注网站,要求用户指定到版面的URL或者提供逐个添加该网站的各版面URL的界面;按版面优先级逐个将各版面列出的话题增量采集。
3.根据权利要求2所述的方法,其特征在于,所述数据采集之后,该方法还包括:经过去重、去噪,抽取相关信息,建立全文索引。
4.根据权利要求1所述的方法,其特征在于,每个站点W对应一个独立的爬取进程w,当站点W的数据量大时,启动多个爬取进程的进程w1、w2、...、wn来分工完成数据采集,站点爬取进程根据事务管理器分发的事务,获取指定事务的Web页面并进行页面核心内容抽取,对于抽取得到的URL按照指定流程进行跳转,对于抽取的核心文本内容存储在数据库。
5.根据权利要求4所述的方法,其特征在于,事务管理器将每个站点根据数据量和访问限制划分为几个子事务,根据各个爬取进程部署机器的负载情况,动态地将子事务分发给各个爬取进程;按照指定的时间间隔来调度爬取进程开始采集事务,如果站点要求登录之后才允许采集数据,并且单个ID被多个爬取进程共用而导致该ID触发站点的访问限制,则账户管理器统一维护一个资源池,包括可用的ID信息,以及该ID当前已经被使用的次数以及时间戳;当某个爬取进程需要使用ID来访问页面时,首先向账户管理器申请一个ID,账户管理器检索资源池中尚未达到限制阈值的ID并返回给爬取进程使用,同时将该ID的访问次数递增并更新访问时间戳;
当站点对每个IP限制一定时间内的访问次数时,使用代理地址进行访问;代理地址映射单元首先分配代理地址;然后检测代理地址的网络QoS;当某个爬取进程申请使用代理地址时,代理地址映射单元检索资源池中尚未达到频率限制阈值且网络质量最好的代理地址返回给爬取进程,同时将该IP的使用计数加1并更新访问时间戳;定时扫描资源池中代理地址的连通情况,记录各个代理地址的超时时间,并将无效的代理地址清除出资源池。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都布林特信息技术有限公司,未经成都布林特信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710441942.7/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置