[发明专利]基于网页的样本数据获取方法、装置、设备及存储介质在审

申请号：	202210007622.1	申请日：	2022-01-06
公开（公告）号：	CN114020987A	公开（公告）日：	2022-02-08
发明（设计）人：	童兆丰;樊兴华;薛锋	申请（专利权）人：	北京微步在线科技有限公司
主分类号：	G06F16/951	分类号：	G06F16/951;G06F16/955;G06F16/957;G06F16/958
代理公司：	北京超凡宏宇专利代理事务所(特殊普通合伙) 11463	代理人：	杨奇松
地址：	100082 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于网页样本数据获取方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供一种基于网页的样本数据获取方法、装置、设备及存储介质，其中，基于网页的样本数据获取方法包括：基于目标网页的URL访问所述目标网页，并在所述目标网页访问成功时获取所述目标网页的网页源码；基于第一解码格式识别所述网页源码的内容；判断所述网页源码的内容是否为乱码内容；当所述网页源码的内容为乱码内容时，则基于所述第二解码格式对所述网页源码的内容进行识别，直至所述网页源码的内容为正确；基于所述网页源码的内容得到样本数据。本申请能够实现在获取网页内容而生成样本数据的过程中，提高服务器资源利用率和提高生成样本数据的执行速度。

技术领域

本申请涉及计算机技术领域，具体而言，涉及一种基于网页的样本数据获取方法、装置、设备及存储介质。

背景技术

目前，为了对网站进行分类需要获取针对网站分类的样本数据，而现有技术是利用调度器、下载器、爬虫、实体管道、Scrapy引擎五大组件对web站点进行抓取，并从页面中提取结构化的数据，最终得到样本数据，其中，现有技术的具体实现过程是：对一个站点配置启动地址，Scrapy运行时首先会从启动地址抓取，并根据配置中的XPath或者正则获取页面中的目标URL，然后在再次进行访问，如此循环，通过下载器对访问的URL地址结果进行处理，提取内容，并将处理好的内容数据持久化存库。

然而，由于Scrapy爬虫框架的运行是依据启动地址，并在本站点的页面中进行网络式爬取，然后对爬取到的符合要求的URL再次进行访问，并对提取到的内容做处理，最后进行存库，因此对已有URL地址并需要快速并发地提取到内容的需求场景，该方案并不适合，并在爬虫框架的频繁启动造成CPU和内存等资源的浪费，且在数据清洗方面，该爬虫框架中并没有提供对提取到的内容做更深入处理的方法。

发明内容

本申请实施例的目的在于提供一种基于网页的样本数据获取方法、装置、设备及存储介质，用以至少实现在获取网页内容而生成样本数据的过程中，提高服务器资源利用率和提高生成样本数据的执行速度。

为此，本申请第一方面公开一种基于网页的样本数据获取方法，所述方法包括：

基于目标网页的URL访问所述目标网页，并在所述目标网页访问成功时获取所述目标网页的网页源码；

基于第一解码格式识别所述网页源码的内容；

判断所述网页源码的内容是否为乱码内容；

当所述网页源码的内容为乱码内容时，则基于所述第二解码格式对所述网页源码的内容进行识别，直至所述网页源码的内容为正确；

基于所述网页源码的内容得到样本数据。

在本申请第一方面中，作为一种可选的实施方式，在所述基于第一解码格式识别所述网页源码的内容之前，所述方法还包括：

当基于所述目标网页的URL访问所述目标网页失败时，更换访问所述目标网页的IP地址；

基于更换后的IP地址和目标网页的URL访问所述目标网页。

在本申请第一方面中，作为一种可选的实施方式，所述基于所述网页源码的内容得到样本数据，包括：