[发明专利]一种基于网页生成PDF的方法、装置、设备及存储介质在审
申请号: | 202211473789.3 | 申请日: | 2022-11-22 |
公开(公告)号: | CN115758027A | 公开(公告)日: | 2023-03-07 |
发明(设计)人: | 王蕴韬;张新;潘季明 | 申请(专利权)人: | 北京天融信网络安全技术有限公司;北京天融信科技有限公司;北京天融信软件有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/957 |
代理公司: | 北京金信知识产权代理有限公司 11225 | 代理人: | 韩岳松 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 网页 生成 pdf 方法 装置 设备 存储 介质 | ||
1.一种基于网页生成PDF的方法,其特征在于,包括:
获得网页访问路径及待访问网页的核心内容的Xpath路径;
基于所述网页访问路径向网页发送访问请求,获得反馈的网页数据;
确定所述网页数据的网页元素节点树;
基于所述Xpath路径中的内容及网页元素节点树确定出所述网页数据中需要删除的非核心数据,所述非核心数据为所述网页数据中除核心数据及其显示相关数据以外的数据;
删除所述网页中的非核心数据;
基于所述网页数据中显示的核心数据生成对应的PDF文件。
2.根据权利要求1所述的基于网页生成PDF的方法,其特征在于,所述基于所述网页访问路径向网页发送访问请求,获得反馈的网页数据,包括:
基于虚拟浏览器结合所述网页访问路径向网页发送访问请求,获得反馈的网页数据。
3.根据权利要求1所述的基于网页生成PDF的方法,其特征在于,所述获得反馈的网页数据包括:
在发送所述访问请求的目标时间段后,拿取反馈的所述网页数据;
模拟人为浏览网页的行为,使所述网页数据完成加载,完整呈现。
4.根据权利要求1所述的基于网页生成PDF的方法,其特征在于,所述基于所述Xpath路径中的内容及网页元素节点树确定出所述网页数据中需要删除的非核心数据,包括:
基于所述Xpath路径定位到所述网页数据中的核心内容;
基于所述核心内容及网页元素节点树确定出所述网页数据中需要删除的非核心数据。
5.根据权利要求4所述的基于网页生成PDF的方法,其特征在于,所述基于所述核心内容及网页元素节点树确定出所述网页数据中需要删除的非核心数据,包括:
对所述网页元素节点树进行遍历,获得网页元素节点全集;
基于所述核心内容确定所述网页元素节点全集中对应所述核心内容的祖先节点与子树节点;
所述网页元素节点全集、对应所述核心内容的祖先节点与子树节点确定所述网页数据中需要删除的非核心数据。
6.根据权利要求1所述的基于网页生成PDF的方法,其特征在于,所述基于所述网页数据中显示的核心数据生成对应的PDF文件,包括:
基于所述网页数据中显示的核心数据以非图片形式生成对应的PDF文件。
7.一种基于网页生成PDF的装置,其特征在于,包括:
获得模块,用于获得网页访问路径及待访问网页的核心内容的Xpath路径;
访问模块,用于基于所述网页访问路径向网页发送访问请求,获得反馈的网页数据;
第一确定模块,用于确定所述网页数据的网页元素节点树;
第二确定模块,用于基于所述Xpath路径中的内容及网页元素节点树确定出所述网页数据中需要删除的非核心数据,所述非核心数据为所述网页数据中除核心数据及其显示相关数据以外的数据;
删除模块,用于删除所述网页中的非核心数据;
生成模块,用于基于所述网页数据中显示的核心数据生成对应的PDF文件。
8.根据权利要求7所述的基于网页生成PDF的装置,其特征在于,所述基于所述网页访问路径向网页发送访问请求,获得反馈的网页数据,包括:
基于虚拟浏览器结合所述网页访问路径向网页发送访问请求,获得反馈的网页数据。
9.根据权利要求7所述的基于网页生成PDF的装置,其特征在于,所述获得反馈的网页数据包括:
在发送所述访问请求的目标时间段后,拿取反馈的所述网页数据;
模拟人为浏览网页的行为,使所述网页数据完成加载,完整呈现。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京天融信网络安全技术有限公司;北京天融信科技有限公司;北京天融信软件有限公司,未经北京天融信网络安全技术有限公司;北京天融信科技有限公司;北京天融信软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211473789.3/1.html,转载请声明来源钻瓜专利网。