[发明专利]用于WEB爬取电子商务资源页面的机制在审
申请号: | 201980043893.9 | 申请日: | 2019-06-28 |
公开(公告)号: | CN112384940A | 公开(公告)日: | 2021-02-19 |
发明(设计)人: | 奥尔加·沙舍夫斯基;纳达夫·韦斯曼;兰·尤赫特曼;斯马达尔·加兹特 | 申请(专利权)人: | 贝宝公司 |
主分类号: | G06Q30/00 | 分类号: | G06Q30/00;G06F16/951;G06F16/958 |
代理公司: | 北京东方亿思知识产权代理有限责任公司 11258 | 代理人: | 郭妍 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 web 电子商务 资源 页面 机制 | ||
一种计算机系统标识对应于第一资源的平台,其中在第一资源中包括一个或多个资源页面。所述计算机系统确定对应于所标识的平台的一个或多个x‑path。计算机系统利用一个或多个x‑path中的至少第一x‑path来将产品添加到与第一资源相关联的数字购物车。响应于将产品添加到与第一资源相关联的数字购物车,计算机系统利用一个或多个x‑path中的至少第二x‑path来访问一个或多个资源页面中的第一资源页面,其中第一资源页面是结帐页面。计算机系统确定位于第一资源页面内的一个或多个元素是否有效。
本申请是2018年6月29日提交的美国专利申请No.16/023,616的继续申请并要求其优先权,通过引用将该美国专利申请整体并入本文。
技术领域
本公开涉及电子商务资源页面,并且更具体地,本公开涉及用于web爬取(crawl)电子商务资源页面的更有效方式。
背景技术
对于诸如web索引和更新web内容之类的某些任务,web爬取器是极其有用的工具。Web爬取器通常从要访问的统一资源定位符(URL)的列表开始,这些URL有时可以被称为“种子(seeds)”。随着web爬取器访问这些URL,它标识页面中的所有超链接并将它们添加到要访问的URL的列表,从而将该列表存储在称为“爬取链接工厂(crawl frontier)”的数据结构中。然而,使用web爬取器的一个主要缺点是对诸如结帐页面之类的某些电子商务网页的访问可能并不容易进行访问,因为为了访问结帐页面,相关联的购物车通常必须在里面具有诸如产品之类的物品。具有允许web爬取器访问电子商务网站的所有页面的机制将是有利的。
附图说明
图1根据实施例图示了web爬取器系统。
图2、图3和图4是根据实施例图示了图1的web爬取器程序的操作的流程图,所述操作包括:标识对应于平台的一个或多个x-path,并进一步利用该一个或多个x-path来访问结帐页面,并且确定是否需要更新结账页面上的一个或多个元素。
图5根据实施例图示了web爬取器112标识多个x-path以访问结账页面的特定示例。
图6是根据实施例描绘了图1的web爬取器系统的硬件组件的框图。
具体实施方式
本公开的实施例提供了一种系统、方法、以及程序产品。一种计算机系统标识对应于第一资源的平台,其中,第一资源包括一个或多个资源页面。该计算机系统确定对应于所标识的平台的一个或多个x-path。该计算机系统利用一个或多个x-path中的至少第一x-path来将产品添加到与第一资源相关联的数字购物车。响应于将产品添加到与第一资源相关联的数字购物车,该计算机系统利用一个或多个x-path中的至少第二x-path来访问一个或多个资源页面中的第一资源页面,其中,第一资源页面是结帐页面。该计算机系统确定位于第一资源页面内的一个或多个元素是否有效。
在示例实施例中,本公开描述了一种解决方案,该解决方案描述了标识对应于网站的平台(诸如“Shopify”,Shopify是Shopify公司的注册商标),并且进一步标识对应于该平台的一个或多个x-path。在示例实施例中,本公开还描述了利用可以包括分别对应于下述各项的x-path的一组x-path以便验证网站上的一个或多个元素(诸如广告、横幅、用户界面元素等):产品列表页面、产品页面、“添加到购物车”按钮、以及结帐页面。如以上所陈述的,目前由于只有一旦已将诸如产品之类的物项添加到数字购物车才可访问结帐页面,所以web爬取器可能无法访问结帐页面。本公开通过描述一种自动化系统来描述对此问题的解决方案,在该自动化系统中web爬取器可以能够标识一组x-path,该组x-path可被用于将产品自动添加到数字购物车,然后进一步访问结帐页面,使得可检查结帐页面上的一个或多个元素的有效性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贝宝公司,未经贝宝公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980043893.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:整流电路、电源装置以及整流电路的驱动方法
- 下一篇:具有资源隔离的外围设备