[发明专利]一种通用的Web自动浏览导航方法在审
申请号: | 201410665797.7 | 申请日: | 2014-11-19 |
公开(公告)号: | CN104361093A | 公开(公告)日: | 2015-02-18 |
发明(设计)人: | 黄宜华;施生生;王海涛;王有志;袁春风;陈承志;龙庆麟;梁国辉 | 申请(专利权)人: | 南京大学;广州科腾信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京苏科专利代理有限责任公司 32102 | 代理人: | 何朝旭 |
地址: | 210046 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 通用 web 自动 浏览 导航 方法 | ||
技术领域
本发明涉及一种Web浏览导航方法,更具体的说,涉及一种通用的Web自动浏览导航方法。
背景技术
Web是目前最大的信息发布和共享平台,其中包含了大量有价值的数据信息,因此,人们越来越多地希望能从Web上抽取并挖掘这些有价值的数据信息,开发各种基于Web信息的深度数据分析应用,提供各种数据分析增值服务。
但类似于Web信息抽取挖掘一类的应用首先要解决的一个重要问题是:如何能让系统像人一样去完成网页的自动浏览导航和交互操作,以便能逐步跳转并访问获取到感兴趣的网页。除了网页数据抽取挖掘应用外,其他的各种Web自动化应用系统也都需要具有这种自动化的网页浏览导航能力,例如,Web应用软件测试时需要能自动浏览和检查所有的网页是否能顺利到达并正确工作。这些Web自动化应用都需要研究解决并提供网页自动浏览导航技术和方法。
在实际的Web信息抽取处理过程中,由于Web应用通常会使用Session、Application、Cookie等对象维护整个Web应用或网页间的状态或事务数据(如购物车),因此,无法用一个URL直接访问到所需的数据网页,需要按照Web应用规定的网页浏览导航关系访问到指定网页;此外,深度网页(Deep Web)数据通常存在于背后的数据库中,深度网页的访问往往需要用户在导航过程中进行一些网页交互操作(如输入一个关键字进行搜索、输入用户名和密码完成登录、勾选一个选择框、选择一个下拉框选项等)。因此,Web信息抽取过程中,需要能模拟用户的浏览和交互操作行为完成所需要的网页交互和浏览导航操作,以此获取到所需要的网页。这就需要一种深度网页自动浏览导航技术和方法。
同时,为了提供流程化的Web网页浏览导航控制能力,例如,需要循环地从电子商务网站上搜索和查看1千个不同的商品数据记录信息网页,则需要提供各种强大而灵活的流程控制处理能力。
然而,由于Web网页自动浏览导航技术的复杂性,在类似于Web信息抽取这类Web自动化应用领域,目前国内还缺少通用的Web浏览导航技术和系统的支持能力。在Web信息抽取应用领域,目前有不少Web数据抽取技术,但几乎绝大多数都仅仅局限于对已获取网页的数据抽取技术研究,而忽略了要获取这些网页首先必须考虑网页自动浏览导航技术和功能。这导致现有的大多数Web信息抽取技术和系统离实际的Web信息抽取应用需求还有很大的距离。由于缺少网页自动浏览技术和功能的支撑,现有的绝大多数需要进行Web信息抽取应用的企业,基本上都要依靠硬编码的方式对每一个不同的网站和网页编写不同的网页访问程序,这种方法显然效率太低,如果需要访问数十至数百个网站或网页,则需要编写太多的程序。也有的企业使用网页爬虫工具,爬取网站上的所有网页。但爬虫工具远远无法满足要求,一是爬虫工具只能爬取通过简单的超链可以到达的静态网页,而无法获取那些需要通过网页交互(如输入一个搜索关键字、或者用户名和密码等)才能获取的深度网页。
目前,有很多独立的网页自动浏览导航技术和系统,包括WebVCR、WebMacros、Koala、Smart Bookmarks等。
其中,WebVCR和WebMacros是较早被提出来的,它们能记录页面导航序列并重放以重现用户交互生成的动作,可以支持部分页面控件(主要是anchor和表单相关的控件)上的部分导航动作(如点击、填写表单等),但它们不能执行复杂的脚本代码、不支持AJAX页面,此外不能支持参数化和缺乏应有的控制逻辑。
Koala能支持用户使用伪自然式的脚本语言来指定Web导航序列的宏指令,比如“type Danny into first name field”、“click search button”。明显地,这种脚本语言对于一般用户要求较高,且不能提供友好的界面来进行交互。其次,同WebVCR一样,它对于控件上的导航动作支持也比较单一。
Smart Bookmarks能够保存一个“书签”式的Web导航序列来访问动态页面,用户可以定制自己的“书签”来完成特定的导航动作。同时,它使用文本、其他指定的属性(如对于anchor控件使用href属性)或者完整的Xpath路径(如HTML/BODY/TABLE[2]/TBODY/TR[3]/TD[5]/DIV[2])来定位导航控件,这种较为单一的方式对于页面上的变化容易产生定位不准的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学;广州科腾信息技术有限公司,未经南京大学;广州科腾信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410665797.7/2.html,转载请声明来源钻瓜专利网。