[发明专利]一种网页分类方法无效
申请号: | 200910115985.1 | 申请日: | 2009-08-14 |
公开(公告)号: | CN101630330A | 公开(公告)日: | 2010-01-20 |
发明(设计)人: | 王攀;张顺颐;宫婷 | 申请(专利权)人: | 苏州锐创通信有限责任公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 苏州创元专利商标事务所有限公司 | 代理人: | 范 晴 |
地址: | 215123江苏省苏州市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 分类 方法 | ||
1.一种网页分类方法,根据数据流向从下往上依次包括数据采集层、网页解析层和应用表示层,其特征在于:所述数据采集层利用聚焦爬虫技术对预设在导航网站网址表中的所有网页的源代码进行采集,所述网页解析层包括以下步骤:
(1.1)判断网页是否满足正则表达式定时学习器模式学习得到的网页结构特征;
(1.2)对符合结构特征的网页进行结构化信息抽取;
(1.3)从结构化信息中提取符合要求的所有下层链接;
(1.4)判断下层链接是否满足搜索策略;
(1.5)将满足搜索策略的下层链接的信息加入网址类别表。
2.根据权利要求1所述的网页分类方法,其特征在于:所述结构化信息用正则表达式表示。
3.根据权利要求1所述的网页分类方法,其特征在于:所述下层链接的信息包括此链接的网页类别信息以及各个类别中对应的网址信息。
4.根据权利要求1或2所述的网页分类方法,其特征在于:所属结构化信息抽取采用聚焦爬虫技术。
5.根据权利要求1或2所述的网页分类方法,其特征在于:所述搜索策略和从结构化信息中提取链接采用广度优先搜索策略。
6.根据权利要求1所述的网页分类方法,其特征在于:所述应用表示层可以根据所述网址类别表得到未知URL的网页分类信息,步骤如下:
(6.1)用户输入未知URL;
(6.2)搜索URL网址类别表;
(6.3)判断该未知URL是否在网址类别表中;
(6.4)对包含在该类别表中的未知URL输出其分类信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州锐创通信有限责任公司,未经苏州锐创通信有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910115985.1/1.html,转载请声明来源钻瓜专利网。