[发明专利]一种半自动化的垂直爬虫生成工具及方法在审

申请号：	201410352349.1	申请日：	2014-07-23
公开（公告）号：	CN104142985A	公开（公告）日：	2014-11-12
发明（设计）人：	陈新蕾;吕芳;魏玉良;刘扬;黄俊恒;王佰玲	申请（专利权）人：	哈尔滨工业大学(威海)
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京科亿知识产权代理事务所(普通合伙) 11350	代理人：	汤东凤
地址：	264209***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种半自动垂直爬虫生成工具方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种半自动化的垂直爬虫生成方法，其特征在于，该半自动化的垂直爬虫生成方法包括以下步骤：

步骤一，用户选择新建或采用lex-yacc技术打开模板，对模板文件进行词法与语法分析，维护符号表，构造出语法分析树；通过寻找词法与语法分析的规律，以及对整个分析过程中数据的存储与处理，根据模板内容构造出树形模板结构，这省去了用户阅读并理解原模板文件的步骤，将模板结构直观地展现在了用户面前；

步骤二，根据要抽取的内容，在树形模板结构中增加、修改或删除模板节点，节点信息中包含跳转关系、XPath表达式、数据存储方式内容，其中与普通垂直爬虫最大的区别是，XPath表达式的确定由用户通过点击等操作来完成，无需手工撰写XPath表达式；

步骤三，保存模板，自动替用户生成语法与格式均正确的模板文件，用户选择直接开始爬取信息；如果用户模板配置正确，系统根据树形模板结构生成语法正确的模板文件，若配置不正确，系统会提示用户需要修改的地方。

2.如权利要求1所述的半自动化的垂直爬虫生成方法，其特征在于，在步骤二中获取XPath表达式的方法包括：

使用lxml库提供的与XPath相关的接口，传入XPath表达式参数，获取XPath对应的页面上的信息；用户在页面上点击某项信息之后，对应的HTML标签会直接显示在HTML元素节点查看器中，同时XPath编辑器显示此元素对应的XPath表达式；HTML元素具有文本内容以及至少一个属性，选择所抽取的是属性还是文本内容；当用户确定XPath表达式之后，便通过抽取内容选择器选择所需要抽取的内容，得到了完整的XPath表达式。

3.一种半自动化的垂直爬虫生成工具，其特征在于，该半自动化的垂直爬虫生成工具包括：爬虫自动生成工具模块、爬虫模块；

爬虫自动生成工具模块，用于实现用户选择新建或采用lex-yacc打开模板，对模板文件进行词法与语法分析，维护符号表，构造出语法分析树，通过寻找词法与语法分析的规律，以及对整个分析过程中数据的存储与处理，根据模板内容构造出树形模板结构；

爬虫模块，与爬虫自动生成工具模块连接，用于根据爬虫自动生成工具模块提供的树形模板，获取爬虫信息。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(威海)，未经哈尔滨工业大学(威海)许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201410352349.1/1.html，转载请声明来源钻瓜专利网。

上一篇：搜索结果展示方法及装置
下一篇：一种对电子地图的线要素进行处理的方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种半自动化的垂直爬虫生成工具及方法在审

专利文献下载