[发明专利]一种网页分类方法无效
申请号: | 200910115985.1 | 申请日: | 2009-08-14 |
公开(公告)号: | CN101630330A | 公开(公告)日: | 2010-01-20 |
发明(设计)人: | 王攀;张顺颐;宫婷 | 申请(专利权)人: | 苏州锐创通信有限责任公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 苏州创元专利商标事务所有限公司 | 代理人: | 范 晴 |
地址: | 215123江苏省苏州市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 分类 方法 | ||
技术领域
本发明涉及网络技术领域,尤其涉及一种对网页进行分类的方法。
背景技术
随着网络信息的不断膨胀,人们越来越离不开搜索引擎。百度、谷歌等通用搜索引擎虽然给人们提供了很多便利,但也存在着一定的局限性,如:通用搜索引擎所返回的结果包含大量用户不关心的网页,且搜索深度不够。
于是,垂直搜索应运而生,它是服务于某个行业领域的精确搜索技术,是搜索引擎的细分和延伸,更加专业,返回的结果更具有针对性,通过特定行业主题的领域知识,可以提供根据语义信息的查询,从而能满足用户的特殊搜索需求。但目前的垂直搜索大多是针对某一特定行业、某一特定领域的搜索,无法对众多行业和领域都进行垂直搜索,无法达到通用搜索的广度。
另外,目前网页的网址都未考虑到语意,在没有上网浏览网页之前,很难知道该网址是什么类型的网站。比如www.yahoo.com,由于网页地址(Uniform Resource Locator,URL)是没有语意的,如果没有上网浏览网页,并不能了解该URL字符串代表着一个综合资讯门户网站。目前还没有方法对未知URL进行分类,绝大部分人所使用的方法是,人工浏览网页,然后根据经验进行分类,这种方法费时费力,且无法覆盖较广的范围。
发明内容
本发明的目的是:提供一种网页分类的方法,将垂直搜索和通用搜索的优点结合起来,既拥有通用搜索的搜索广度,又拥有垂直搜索的搜索深度,并且能方便地获得分类网站上一个未知URL所属的网页分类信息。
本发明的技术方案是:一种网页分类方法,根据数据流向从下往上依次包括数据采集层、网页解析层和应用表示层,其中,数据采集层利用聚焦爬虫技术对预设在导航网站网址表中的所有网页的源代码进行采集,网页解析层包括以下步骤:
(1)判断网页是否满足正则表达式定时学习器模式学习得到的网页结构特征;
(2)对符合结构特征的网页进行结构化信息抽取;
(3)从结构化信息中提取符合要求的所有下层链接;
(4)判断下层链接是否满足搜索策略;
(5)将满足搜索策略的下层链接的信息加入网址类别表。
本发明更为详细的技术方案是:所述结构化信息用正则表达式表示。
所述下层链接的信息包括此链接的网页类别信息以及各个类别中对应的网址信息。
所述结构化信息抽取采用聚焦爬虫技术。
所述搜索策略和从结构化信息中提取链接采用广度优先搜索策略。
所述应用表示层可以根据所述网址类别表得到未知URL的网页分类信息,步骤如下:
(1)用户输入未知URL;
(2)搜索URL网址类别表;
(3)判断该未知URL是否在网址类别表中;
(4)对包含在该类别表中的未知URL输出其分类信息。
本发明的优点是:
1.基于垂直搜索的搜索机制,因此可用于专业领域的特定人群对特定信息的搜索,对各种领域的网页分类覆盖范围具有较好的深度;
2.由于网页读取基于众多导航类网站,具有丰富的各行业网址信息,因此可用于不同专业领域的人群对各自领域的精确搜索,具有通用搜索的广度,且具有较高的搜索效率;
3.拥有内容丰富、信息全面的网址类别表,能针对分类网站上的未知的URL给出其网页分类信息;
4.可用于对网络用户的搜索进行后期的数据统计,进行兴趣热点分析。
根据此方法开发的系统,通过验证得到该方法抓取的URL在中文站点ALEXA TOP100中的覆盖率达到98%,在全球站点ALEXA TOP500中的覆盖率达到87%,地方特色网站的URL覆盖率达到56%。
附图说明
下面结合附图及实施例对本发明作进一步描述:
图1为本发明的优选实施例的整体流程图;
图2为本发明的优选实施例的网页内容解析的工作流程图;
图3为本发明的优选实施例的应用表示层对未知网址分类的流程图。
具体实施方式
实施例:
本实施例的一种网页分类的方法,根据数据流向从下往上依次包括数据采集层、网页解析层和应用表示层,如图1所示,包括以下具体步骤:
(1)读取预设网址导航站点的URL列表,其中存储着众多导航类网址,如www.hao123.com,www.sohu.com等;
(2)判断此URL列表是否为空,若空,则说明已搜索完,转步骤8结束,若不空,则继续步骤3;
(3)取出一个URL;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州锐创通信有限责任公司,未经苏州锐创通信有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910115985.1/2.html,转载请声明来源钻瓜专利网。