[发明专利]一种智能生成爬虫的方法及装置在审
申请号: | 201711098395.3 | 申请日: | 2017-11-09 |
公开(公告)号: | CN107943862A | 公开(公告)日: | 2018-04-20 |
发明(设计)人: | 郭建辉 | 申请(专利权)人: | 天脉聚源(北京)传媒科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京尚伦律师事务所11477 | 代理人: | 张亮 |
地址: | 100007 北京市东城区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 智能 生成 爬虫 方法 装置 | ||
1.一种智能生成爬虫的方法,其特征在于,包括:
构造出通用的爬虫代码;
根据输入的网页信息,通过所述爬虫代码生成所述网页的树状结构;
根据用户对所述网页的树状结构的选择指令,生成相应的爬虫规则;
根据所述爬虫规则下载对应的数据内容并保存。
2.如权利要求1所述的方法,其特征在于,所述根据输入的网页生成,通过所述爬虫代码生成所述网页的树状结构,包括:
预先构造适用于各种类型的存储结构,所述各种类型包括新闻、视频中的任一者或多者,所述存储结构包括至少一种字段,所述字段包括至少一个具体属性且所述字段包括文字、链接、图片、音频和视频中的任一者或多者;
根据所述适用于各种类型的存储结构,设计出通用的爬虫代码,所述通用的爬虫代码和所述适用于各种类型的信息载体的存储结构相匹配。
3.如权利要求1所述的方法,其特征在于,所述根据输入的网页信息,通过所述爬虫代码生成所述网页的树状结构,包括:
分析出输入的网页信息对应的所述网页的统一资源定位符;
根据所述网页的统一资源定位符,通过所述爬虫代码获取出网页的代码文件;
根据所述网页的代码文件解析出所述网页的至少一个区域模块;
分析所述至少一个区域模块的至少一个字段,所述字段包括文字、链接、图片、音频和视频中的任一者或多者;
按照所述至少一个字段在所述网页的代码文件中的结构位置,生成相应的所述网页的树状结构;
同时向用户展示所述网页的原页面,以便用户结合所述网页的树状结构对照查看。
4.如权利要求3所述的方法,其特征在于,所述根据用户对所述网页的树状结构的选择指令,生成相应的爬虫规则,包括:
根据输入的对区域模块的选择指令,生成所述爬虫规则的编辑页面,所述爬虫规则的编辑页面包括选定区域模块的树状结构和爬虫规则生成区域中的任一者或多者;
根据输入的对所述选定区域模块中的树状结构的至少一个字段的选择指令,生成相应的爬虫规则;
叠加后续输入的至少一个选择指令,在之前的所述相应的爬虫规则的基础上,逐一添加所述后续输入的至少一个选择指令对应的爬虫规则。
5.如权利要求1所述的方法,其特征在于,所述根据所述爬虫规则,下载对应的数据内容并保存,包括:
在所述爬虫规则的基础上,接收输入的存储指令,所述存储指令可针对任一区域模块中的任一字段;
获取输入的针对所述任一字段包含的至少一个具体属性;
根据输入的所有的存储指令,下载对应的数据内容并保存到对应的具体属性中。
6.一种智能生成爬虫的装置,其特征在于,包括:
构造模块,用于构造出通用的爬虫代码;
第一生成模块,用于根据输入的网页信息,通过所述爬虫代码生成所述网页的树状结构;
第二生成模块,用于根据用户对所述网页的树状结构的选择指令,生成相应的爬虫规则;
下载模块,用于根据所述爬虫规则下载对应的数据内容并保存。
7.根据权利要求6的装置,其特征在于,所述构造模块,包括:
构造子模块,用于预先构造适用于各种类型的存储结构,所述各种类型包括新闻、视频中的任一者或多者,所述存储结构包括至少一种字段,所述字段包括至少一个具体属性且所述字段包括文字、链接、图片、音频和视频中的任一者或多者;
设计子模块,用于根据所述适用于各种类型的存储结构,设计出通用的爬虫代码,所述通用的爬虫代码和所述适用于各种类型的信息载体的存储结构相匹配。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天脉聚源(北京)传媒科技有限公司,未经天脉聚源(北京)传媒科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711098395.3/1.html,转载请声明来源钻瓜专利网。