[发明专利]一种网页分类方法无效
申请号: | 200910115985.1 | 申请日: | 2009-08-14 |
公开(公告)号: | CN101630330A | 公开(公告)日: | 2010-01-20 |
发明(设计)人: | 王攀;张顺颐;宫婷 | 申请(专利权)人: | 苏州锐创通信有限责任公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 苏州创元专利商标事务所有限公司 | 代理人: | 范 晴 |
地址: | 215123江苏省苏州市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种网页分类的方法,根据数据流向从下往上依次包括数据采集层、网页解析层和应用表示层,所述数据采集层利用聚焦爬虫技术对预设在导航网站网址表中的所有网页的源代码进行采集,所述网页解析层对满足网页特定结构特征的网页进行结构化信息抽取并提取符合要求的下层链接,并对将满足搜索策略的下层链接的信息加入网址类别表,应用表示层可以根据所述网址类别表得到未知URL的网页分类信息。本发明既拥有通用搜索的搜索广度,又拥有垂直搜索的搜索深度,并且能方便地获得分类网站上一个未知URL所属的网页分类信息。 | ||
搜索关键词: | 一种 网页 分类 方法 | ||
【主权项】:
1.一种网页分类方法,根据数据流向从下往上依次包括数据采集层、网页解析层和应用表示层,其特征在于:所述数据采集层利用聚焦爬虫技术对预设在导航网站网址表中的所有网页的源代码进行采集,所述网页解析层包括以下步骤:(1.1)判断网页是否满足正则表达式定时学习器模式学习得到的网页结构特征;(1.2)对符合结构特征的网页进行结构化信息抽取;(1.3)从结构化信息中提取符合要求的所有下层链接;(1.4)判断下层链接是否满足搜索策略;(1.5)将满足搜索策略的下层链接的信息加入网址类别表。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州锐创通信有限责任公司,未经苏州锐创通信有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200910115985.1/,转载请声明来源钻瓜专利网。