[发明专利]网页元素采集方法、装置、终端与计算机可读存储介质有效
申请号: | 201710957272.4 | 申请日: | 2017-10-16 |
公开(公告)号: | CN107729475B | 公开(公告)日: | 2021-07-02 |
发明(设计)人: | 刘宝强;肖云飞 | 申请(专利权)人: | 深圳视界信息技术有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955;G06F16/958 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 张海洋 |
地址: | 518000 广东省深圳市南山*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 元素 采集 方法 装置 终端 计算机 可读 存储 介质 | ||
1.一种网页元素采集方法,其特征在于,包括:
获取用户输入的需要采集的网页的网址,并在内置浏览器中打开所述网页;
获取用户点击的网页元素,显示与所述用户点击的网页元素对应的功能选项组,其中,所述功能选项组包括至少一个可供选择的功能选项,所述功能选项与所述用户点击的网页元素所包含的标签类型相适应,所述标签类型包括a标签、img标签、input标签和其他标签,所述功能选项包括抓取所述网页元素的文本、抓取所述网页元素的InnerHtml、抓取所述网页元素的OuterHtml、抓取所述网页元素的超链接、抓取所述网页元素的图片地址、抓取所述网页元素的Value值、循环遍历下拉选项、点击所述网页元素与输入文本中的一种或多种;
确定用户选择的功能选项;
生成与所述网页元素对应的Xpath路径表达式,并生成与所述功能选项对应的执行步骤或执行与所述功能选项对应的操作,所述执行步骤用于被执行而实现对所述用户点击的网页元素的目标数据的采集,所述操作包括点击所述用户点击的网页元素和获取用户输入的文本;
当所述用户点击的网页元素所包含的标签类型为a标签时,所述功能选项为所述抓取所述网页元素的文本、所述抓取所述网页元素的InnerHtml、所述抓取所述网页元素的OuterHtml、所述抓取所述网页元素的超链接与点击所述网页元素中的一种或多种。
2.根据权利要求1所述的网页元素采集方法,其特征在于,当所述用户点击的网页元素所包含的标签类型为img标签时,所述功能选项为所述抓取该网页元素的OuterHtml、所述抓取该网页元素的图片地址与所述点击该网页元素中的一种或多种。
3.根据权利要求1所述的网页元素采集方法,其特征在于,当所述用户点击的网页元素所包含的标签类型为input标签时,所述功能选项组为所述抓取该网页元素的OuterHtml、所述抓取该网页元素的Value值”、所述点击该网页元素与所述输入文本中的一种或多种;当所述用户点击的网页元素所包含的标签类型为select标签时,所述功能选项为所述循环遍历下拉选项。
4.根据权利要求1所述的网页元素采集方法,其特征在于,所述执行步骤包括:
根据所述Xpath路径表达式定位至所述用户点击的网页元素;
获取所述用户点击的网页元素中与所述操作指令匹配的子节点;
获取所述子节点的信息而生成所述用户点击的网页元素的目标数据。
5.一种网页元素采集装置,其特征在于,包括:
网页打开模块,用于获取用户输入的需要采集的网页的网址,并在内置浏览器中打开所述网页;
选项显示模块,用于根据用户点击的网页元素显示对应的功能选项组,其中,所述功能选项组包括至少一个可供选择的功能选项,所述功能选项与所述用户点击的网页元素所包含的标签类型相适应,所述标签类型包括a标签、img标签、input标签和其他标签,所述功能选项包括抓取所述网页元素的文本、抓取所述网页元素的InnerHtml、抓取所述网页元素的OuterHtml、抓取所述网页元素的超链接、抓取所述网页元素的图片地址、抓取所述网页元素的Value值、循环遍历下拉选项、点击所述网页元素与输入文本中的一种或多种;
功能选项确定模块,用于确定用户选择的功能选项;
操作生成与执行模块,用于生成与所述网页元素对应的Xpath路径表达式,并生成与所述功能选项对应的执行步骤或执行与所述功能选项对应的操作,所述执行步骤用于被执行而实现对所述用户点击的网页元素的目标数据的采集,所述操作包括点击所述用户点击的网页元素和获取用户输入的文本;
当所述用户点击的网页元素所包含的标签类型为a标签时,所述功能选项为所述抓取所述网页元素的文本、所述抓取所述网页元素的InnerHtml、所述抓取所述网页元素的OuterHtml、所述抓取所述网页元素的超链接与点击所述网页元素中的一种或多种。
6.根据权利要求5所述的网页元素采集装置,其特征在于,其还包括执行模块,用于根据所述Xpath路径表达式定位后,获取所述用户点击的网页元素中与所述操作指令匹配的子节点的信息,从而生成所述用户点击的网页元素的目标数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳视界信息技术有限公司,未经深圳视界信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710957272.4/1.html,转载请声明来源钻瓜专利网。