[发明专利]并行化分布式网络舆情数据管理方法及系统有效
申请号: | 201210424633.6 | 申请日: | 2012-10-30 |
公开(公告)号: | CN102945270A | 公开(公告)日: | 2013-02-27 |
发明(设计)人: | 杨睿尘 | 申请(专利权)人: | 北京腾逸科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张大威 |
地址: | 100086 北京市海淀区青*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 并行 化分 网络 舆情 数据管理 方法 系统 | ||
技术领域
本发明属于计算机应用技术领域和信息技术领域,特别涉及一种并行化分布式网络舆情数据管理方法及系统。
背景技术
随着互联网应用的广泛普及,数据的海量性在各方面的体现越来越突出,从网络流量数据,到移动通信用户行为记录;从搜索引擎的日志数据,到银行的客户操作记录,等等。这些海量信息与生俱来的数字化与网络化性质,人们在共享海量网络信息的同时,也面临着海量数据存储、访问和管理问题。
以往当人们需要存储结构化数据时,数据库通常是首选的解决方案,在数据规模不大时,其可以提供便捷、稳定的服务。然而随着数据量的增长,特别是当Web时代来临后,针对动辄TB级的庞大数据,海量数据的存储和访问成为了系统设计的瓶颈问题。
发明内容
本发明旨在解决海量数据的存储和访问数据库设计瓶颈问题,并对数据库及数据操作进行优化设计。
本发明的一个目的在于提出一种效率较高的并行化分布式网络舆情数据管理方法。
本发明的并行化分布式网络舆情数据管理方法,包括:对互联网数据进行抓取;对所述互联网数据进行抽取;存储和展示抓取和抽取得到的互联网舆情数据;以及对所述互联网舆情数据的索引和查询进行优化。
在本发明的方法的一个实施例中,所述对互联网数据进行抓取包括:用户设定网站的类型、所属行业、所要抓取索引页的链接;然后将所述索引页对应的网页信息抓取的正则配置网页导入数据库;以及读取所述索引页的完整抓取配置信息,对所述索引页下的所有全文和评论进行抓取,并对抓取的网页进行标定和记录。
在本发明的方法的一个实施例中,所述对所述互联网数据进行抽取包括:将所述索引页对应的网页信息抽取正则配置文件导入数据库;以及读取所述索引页下正文、评论的完整抽取配置信息,进行所述索引页下的所有正文及评论的抽取,并对抽取的网页进行标定和记录。
在本发明的方法的一个实施例中,所述数据库的读操作和写操作在不同数据库服务器中进行。
本发明的另一个目的在于提出一种效率较高的并行化分布式网络舆情数据管理系统。
本发明的并行化分布式网络舆情数据管理系统,包括:数据抓取模块,所述数据抓取模块用于对互联网数据进行抓取;数据抽取模块,所述数据抽取模块用于对所述互联网数据进行抽取;存储模块,所述存储模块用于存储和展示抓取和抽取得到的互联网舆情数据;以及优化模块,所述优化模块用于对所述互联网舆情数据的索引和查询进行优化。
在本发明的系统的一个实施例中,所述数据抓取模块包括:用户设定模块,所述用户设定模块用于用户设定网站的类型、所属行业、所要抓取索引页的链接;第一导入模块,所述第一导入模块用于将所述索引页对应的网页信息抓取的正则配置网页导入数据库;以及抓取及标定子模块,所述抓取及标定子模块用于读取所述索引页的完整抓取配置信息,对所述索引页下的所有全文和评论进行抓取,并对抓取的网页进行标定和记录。
在本发明的系统的一个实施例中,所述数据抽取模块包括:第二导入模块,所述第二导入模块用于将所述索引页对应的网页信息抽取正则配置文件导入数据库;以及抽取及标定子模块,装置抽取及标定子模块用于读取所述索引页下正文、评论的完整抽取配置信息,进行所述索引页下的所有正文及评论的抽取,并对抽取的网页进行标定和记录。
在本发明的系统的一个实施例中,所述数据库的读操作和写操作在不同数据库服务器中进行。
本发明借鉴当前通用的负载均衡技术、数据库的读写分离技术、数据库拆分技术,并结合项目自身的特点对数据库的设计进行优化处理,达到将数据库建立在一台服务器上,客户端运行在各自的服务器上,只将处理后的数据存储到数据库服务器上;也可以将现有数据库进行分拆,建立多个服务器上,公共的基础信息和关联信息可以通过数据库同步和分发技术实现数据的一致性。本发明可以完成数据抓取所需配置的编辑、删除管理功能;数据抽取所需配置的编辑、删除管理功能;对抓取的网页进行标定和记录,对抽取的信息进行结构化的数据存储。为上层系统提供单台服务器部署或多台服务器分布式部署两种部署方式。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明的并行化分布式网络舆情数据管理方法的流程图;
图2为本发明的并行化分布式网络舆情数据管理系统的结构框图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京腾逸科技发展有限公司,未经北京腾逸科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210424633.6/2.html,转载请声明来源钻瓜专利网。