[发明专利]一种模拟访问网站适配器系统有效
申请号: | 201810114765.6 | 申请日: | 2018-02-06 |
公开(公告)号: | CN108256106B | 公开(公告)日: | 2021-11-02 |
发明(设计)人: | 王欣 | 申请(专利权)人: | 深圳鼎智通讯股份有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955;H04L29/06;H04L29/08 |
代理公司: | 深圳市神州联合知识产权代理事务所(普通合伙) 44324 | 代理人: | 周松强 |
地址: | 518000 广东省深圳市南山区粤*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 模拟 访问 网站 适配器 系统 | ||
1.一种模拟访问网站适配器系统,其特征在于该模拟访问网站适配器系统整体功能架构包含以下5个模块:自动登录模块、抓取指定页面模块、页面解析模块、数据提取模块、DB存取模块;其中,自动登录模块通过模拟HTTP请求过程,提取出请求HTTP过程报文中的相关信息,将这些参数填入到模拟过程中,实现自动登录;登录成功后,抓取指定页面模块抓取指定页面,抓取指定页面模块将页面数据组织起来后,将这些数据封装起来,进行模拟HTTP请求的请求过程,得到响应后,进行下一步处理;完成了页面抓取后,抓取到指定页面存储为HTML文件,页面解析模块和数据提取模块就是对HTML文件中的标签进行解析,提取中这些标签中数据;解析完之后在数据提取模块中进行相关处理,获取到指定信息,存储到DB存取模块中,进行相关序列化的操作,以便于后续随时获取;
所述自动登录模块和抓取指定页面模块这两个模块要将请求HTTP报文的信息组织到数据库中,方便今后扩展和修改需要访问网站的相关信息;HTTP报文的信息数据组织起来后,将这些数据封装起来,提供给一个HTMLHelper类进行模拟HTTP请求的请求过程,得到响应后,进行下一步处理,在自动登录模块需要保存当前的页面,保持登录状态;在抓取指定页面模块需要保存当前的指定页面,这些文件都保存为HTML格式。
2.根据权利要求1所述的模拟访问网站适配器系统,其特征在于所述自动登录模块和抓取指定页面模块,需要采集访问登录页面及指定页面过程中网络数据包,分析网络数据包中页面HTTP请求过程中所需要的参数。
3.根据权利要求2所述的模拟访问网站适配器系统,其特征在于所述页面HTTP请求过程中所需要的参数包括但不限于:请求页面的url、之前跳转url、cookie、post数据、useragent、contenttype、host。
4.根据权利要求3所述的模拟访问网站适配器系统,其特征在于所述自动登录模块和抓取指定页面模块借助设计模式中的抽象工厂模式,将这些存在差异化的数据统一进行管理,能实现适配器程序对模拟HTTP请求过程的统一调度。
5.根据权利要求4所述的模拟访问网站适配器系统,其特征在于该模块中抽象工厂的处理方法为:这些数据的差异来源是HTTP请求中附带上去的post数据中,对于POST方式的请求,这些数据就存在与请求的头部post参数中,对于GET请求方式,这些数据就直接存在于请求的URL中,这里统一称为postdata,主要是登录模块中的用户名和密码信息,抓取指定页面中需要提交的日期和渠道号;利用ITAG通过该抽象类的getValue()方法进行数据的填充,同时在数据库中会以一个标签的形式去管理这些数据,在适配器程序中通过TAGManager对这些标签进行解析;带有标签的数据在数据库中的组织形式如下:UserName=[TAG_USER]UserPass=[TAG_PWD]。
6.根据权利要求5所述的模拟访问网站适配器系统,其特征在于TAGManager.cs中对数据库中带TAG标签的数据处理,在处理完自动登录和抓取指定页面数据后,在适配器程序中模拟HTTP请求,去获取相关的信息。
7.根据权利要求6所述的模拟访问网站适配器系统,其特征在于页面抓取后,将抓取到指定页面存储为HTML文件,页面解析和数据提取模块就是对HTML文件中的标签进行解析,提取这些标签中数据。
8.根据权利要求7所述的模拟访问网站适配器系统,其特征在于提取标签的path可利用工具HtmlAgilityPackTester工具解析到指定的标签,然后获取该标签中的内容。
9.根据权利要求8所述的模拟访问网站适配器系统,其特征在于对于解析出页面激活量的数据,借助工具HtmlAgility PackTester解析出来的path,解析完之后在数据提取模块中进行相关处理,存入到DB存储模块中的数据库对应的表中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳鼎智通讯股份有限公司,未经深圳鼎智通讯股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810114765.6/1.html,转载请声明来源钻瓜专利网。