[发明专利]一种网站信息分析系统及其方法有效
申请号: | 201010574349.8 | 申请日: | 2010-12-03 |
公开(公告)号: | CN102073678A | 公开(公告)日: | 2011-05-25 |
发明(设计)人: | 陈奋;吴世雄;张永光 | 申请(专利权)人: | 厦门市美亚柏科信息股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 厦门市首创君合专利事务所有限公司 35204 | 代理人: | 连耀忠 |
地址: | 361000 福建省厦门*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网站 信息 分析 系统 及其 方法 | ||
技术领域
本发明涉及一种对网站的信息分析系统,特别是涉及一种网站信息分析系统及其方法。
背景技术
现有技术的针对网站的信息分析过程,主要采用人工通过浏览器访问网站(如果需要权限的网站还需要用户名和密码登陆),然后采用截屏方式对网站页面进行截屏信息分析;如果网页页面比较长的话,需要采用特殊的截屏工具才能截取整个页面;同时还存在着网站结构复杂等问题,采用人工方式工作量大又没有办法准确得完成整个网站的信息分析工作。因此,现有技术在解决网站信息分析时存在如下问题:一是,对于页面较长的数据需要特殊的截屏工具才能完成截屏,致使操作复杂;二是,对于结构复杂的网站,不但人工工作量大,并且容易出现页面遗漏现象;三是,在网站内容信息分析过程中,如果已经信息分析过的页面内容发生变化没有办法及时发现,导致信息分析内容跟页面内容出现不一致现象;四是,网站信息分析的结果需要人工录入形成报表,工作量大。
发明内容
本发明的目的在于克服现有技术之不足,提供一种网站信息分析系统及其方法,是利用网络爬虫技术和内存自动成像技术来实现对网站的自动信息分析过程,该信息分析系统不但能够实现自动信息分析,而且能够消除人工信息分析所存在的页面遗漏现象,具有信息分析准确、快速、无遗漏,以及操作容易的特点。
本发明解决其技术问题所采用的技术方案是:一种网站自动信息分析的信息分析系统,包括:
一权限验证器,其用来对目标网站进行权限检测,向目标网站发送登陆指令以提取网站的页面信息,判定目标网站是否需要用户名和密码登陆访问,对于需要用户名和密码登陆访问的目标网站,利用网络爬虫技术分析模块模拟网站的登陆流程自动登陆目标网站;
一链接提取器,其用来获取目标网站的所有链接数据信息,利用链接提取算法模块,从目标网站的页面中提取所有链接数据信息;
一链接分析器,其用来对所有链接数据信息进行分析,并按照预先设定的分类方式对所有链接数据信息进行分类分析;
一链接页面成像器,其用来对已经分类好的链接数据信息进行内存成像分析,以将链接页面自动加载在内存中并对页面直接进行成像保存分析,保存于指定存储器中;
一增量信息分析器,其用来重新遍历目标网站的所有链接并成像存储未出现于指定存储器的链接队列;
一报表生成器,根据成像的链接数据信息生成预置格式的报表;
权限验证器的输出接至链接提取器的输入,权限验证器将目标网站的页面信息输给链接提取器,由链接提取器进行网站页面链接数据信息的提取;链接提取器的输出接至链接分析器的输入,链接提取器将提取的链接数据信息输给链接分析器,由链接分析器进行归类整理;链接分析器的输出接至链接页面成像器的输入,链接分析器将归类整理的链接数据信息输给链接页面成像器,由链接页面成像器进行链接页面成像分析;链接页面成像器的输出接至增量信息分析器的输入,由增量信息分析器重新遍历目标网站的所有链接并成像存储未出现于指定存储器的链接队列;增量信息分析器的输出接至报表生成器,由报表生成器生成报表。
一种网站信息分析方法,包括如下步骤:
对目标网站进行权限检测的步骤;该步骤用来判定目标网站是否需要用户名和密码登陆访问,对于需要用户名和密码登陆访问的目标网站,采用网络爬虫技术模拟网站的登陆流程自动登陆目标网站;
获取目标网站的所有链接的步骤;该步骤是采用链接提取算法来提取目标网站中的所有链接数据信息;
分析所述链接数据信息并对其进行分类的步骤;该步骤是根据预置的方式对链接数据信息进行分类分析;
对分类好的所述链接数据信息进行内存成像分析并保存于指定存储器的步骤;
重新遍历目标网站的所有链接并成像存储未出现在指定存储器的链接队列的步骤;
根据成像的链接数据信息生成报表的步骤。
所述对分类好的所述链接数据信息进行内存成像分析并保存于指定存储器的步骤,其进一步包括:
A.提取内存中分类好的链接队列中的链接信息;
B.创建一个应用程序窗口,该窗口具有一定的初始大小,同时该窗口处于隐藏状态;
C.绑定一个浏览器内核到该窗口上;
D.通过浏览器内核访问并加载链接页面内容;
E.浏览器内核加载的链接页面通过绑定的窗口展现在窗口中;
F.当链接页面加载完成或达到预定时间,则对隐藏窗口页面内容进行成像存储;
G.获取链接页面内容在窗口中的长度和高度,调用图形GDI接口对该范围内的窗口输出进行成像保存;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门市美亚柏科信息股份有限公司,未经厦门市美亚柏科信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010574349.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:新型支撑装置
- 下一篇:负载纳米Pt的蜂窝结构Al2O3催化剂的制备方法
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置