首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]基于垂直搜索和聚焦爬虫的网页分类技术无效

申请号：	200910025724.0	申请日：	2009-03-06
公开（公告）号：	CN101520798A	公开（公告）日：	2009-09-02
发明（设计）人：	王攀;张顺颐;宫婷	申请（专利权）人：	苏州锐创通信有限责任公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	210003江苏省南京市鼓***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于垂直搜索聚焦爬虫网页分类技术
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于垂直搜索和聚焦爬虫技术的网页分类识别方法，其特征在于该方法的步骤为：

(1)读取预设网址导航站点的URL列表，判断URL列表是否为空，若为空，则转步骤(8)；

(2)取出一个站点URL，将其放入未访问的URL列表(UV_URL列表)中。

(3)如果UV_URL列表为空，则转步骤(1)；

(4)从UV_URL列表中取出一个URL，根据表V_URL判断此URL是否被访问过，若是，则转步骤(3)；

(5)对取得的URL进行网页源码获取，利用垂直搜索技术和聚焦爬虫技术对网页内容解析，获取此站点下的网页类别信息及各个类别中对应的网址信息；

(6)将网页类别信息及各个类别中对应的网址信息加入到Category列表中；

(7)从表UV_URL中删除URL，并将其添加到V_URL中，转向(1)；

(8)结束。

2.网页内容解析法，它是基于垂直搜索和聚焦爬虫技术的网页分类识别方法中的核心方法。其特征在于通过垂直搜索和聚焦爬虫技术来准确识别导航网站的网址分类和对应分类下的网址信息，其方法步骤为：

(1)利用聚焦爬虫抓取网页的源文件；

(2)判断此网页是否满足正则表达式定时学习器模式学习得到的网页结构特征，若不满足，转步骤(6)；

(3)利用正则表达式抽取网页的结构化信息，此结构化信息即为网址分类信息的内容块；

(4)根据正则表达式从结构化信息块中提取符合要求的新链接；

(5)将新链接加入URL队列中；

(6)判断URL队列是否为空，若为空，则转步骤(8)；

(7)取出一个URL，判断此URL是否满足搜索策略，若满足，则将此URL加入到网址类别表Category中，并同时转向步骤(1)；否则，转向步骤(6)；

(8)结束。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于苏州锐创通信有限责任公司，未经苏州锐创通信有限责任公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200910025724.0/1.html，转载请声明来源钻瓜专利网。

上一篇：一种利用无线射频电子标签结合公钥基础设施进行药品防伪的方法
下一篇：直流系统接地故障检测判别

同类专利

专利分类

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top