[发明专利]一种网页解析方法、系统及电子设备在审
申请号: | 202210294037.4 | 申请日: | 2022-03-24 |
公开(公告)号: | CN114595410A | 公开(公告)日: | 2022-06-07 |
发明(设计)人: | 蔡玉柱;闫学森;李舒嫒;杨建兴;杜波 | 申请(专利权)人: | 中国农业银行股份有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955;G06F16/958;G06F16/953 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王云晓 |
地址: | 100005 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 解析 方法 系统 电子设备 | ||
本申请公开了一种网页解析方法、系统及电子设备,从待采集网页列表中确定第一待采集网页,确定第一待采集网页的地址信息,待采集网页列表中包括多个待采集网页,每个待采集网页对应一个地址信息;基于第一待采集网页的地址信息确定第一待采集网页的特性信息,基于第一待采集网页的特性信息确定符合特性信息的采集模式,基于采集模式采集第一待采集网页的网页信息,解析并存储网页信息。
技术领域
本申请涉及网页解析领域,尤其涉及一种网页解析方法、系统及电子设备。
背景技术
目前,对于网页信息采集,通常采用通用网页采集或聚焦网页采集。
其中,通用网页采集,其对于多类网页采集采用一套通用的处理方法,并未考虑网页本身的特性,网页信息采集完整性很难保证;而聚焦网页采集,其仅能采集一种类型的网页信息,网页采集的类别有限。
发明内容
有鉴于此,本申请提供一种网页解析方法、系统及电子设备,其具体方案如下:
一种网页解析方法,包括:
从待采集网页列表中确定第一待采集网页,确定所述第一待采集网页的地址信息,所述待采集网页列表中包括多个待采集网页,每个待采集网页对应一个地址信息;
基于所述第一待采集网页的地址信息确定所述第一待采集网页的特性信息;
基于所述第一待采集网页的特性信息确定符合所述特性信息的采集模式,基于所述采集模式采集所述第一待采集网页的网页信息;
解析并存储所述网页信息。
进一步的,所述基于所述第一待采集网页的地址信息确定所述第一待采集网页的特性信息,包括:
基于所述第一待采集网页的地址信息确定所述第一待采集网页是否为特定类型渲染网页,以及,确定所述第一待采集网页是否对所述第一待采集网页中存在的网页链接进行采集。
进一步的,所述基于所述第一待采集网页的特性信息确定符合所述特性信息的采集模式,包括:
若确定所述第一待采集网页为所述特定类型渲染网页,且仅对所述第一待采集网页进行采集,则确定所述第一待采集网页为动态非扩展类型的网页,确定动态非扩展采集模式;
若确定所述第一待采集网页为所述特定类型渲染网页,且对所述第一待采集网页中存在的网页链接进行采集,则确定所述第一待采集网页为动态扩展类型的网页,确定动态扩展采集模式;
若确定所述第一待采集网页为非特定类型渲染网页,且仅对所述第一待采集网页进行采集,则确定所述第一待采集网页为静态非扩展类型的网页,确定动态非扩展采集模式;
若确定所述第一待采集网页为非特定类型渲染网页,且对所述第一待采集网页中存在的网页链接进行采集,则确定所述第一待采集网页为静态扩展类型的网页,确定静态扩展采集模式。
进一步的,所述基于所述采集模式采集所述第一待采集网页的网页信息,包括:
基于所述采集模式下载所述第一待采集网页;
从下载的所述第一待采集网页中获取网页信息。
进一步的,还包括:
获得下载的所述第一待采集网页中存在的网页链接;
确定所述第一待采集网页中的网页链接是否与所述待采集网页列表中的待采集网页的地址信息相同;
若所述网页链接与所述待采集网页列表中每一待采集网页的地址信息均不相同,将所述网页链接作为一个地址信息存储至所述待采集网页列表。
进一步的,所述解析并存储所述网页信息,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国农业银行股份有限公司,未经中国农业银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210294037.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种零件弧面打磨装置
- 下一篇:一种舞狮训练用保护装置