[发明专利]一种网页分类方法和装置有效
申请号: | 201010291553.9 | 申请日: | 2010-09-21 |
公开(公告)号: | CN102411587A | 公开(公告)日: | 2012-04-11 |
发明(设计)人: | 杨巍;张立明 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 张驰;宋志强 |
地址: | 518044 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 分类 方法 装置 | ||
技术领域
本发明涉及互联网技术领域,尤其涉及一种网页分类方法和装置。
背景技术
在互联网技术领域,经常需要对网页进行分类。衡量网页分类方法的指标包括召回率和准确率。召回率,是正确分出类别的网页数量和所有网页中属于该类别的网页数量的比值,用于衡量网页分类方法是否具有通用性。准确率,是正确分出类别的网页数量除以所有分出类别的网页数量的比值,用于衡量网页分类方法是否准确。
由于网页通常以文字信息为主,因此目前常用的网页分类方法是:抽取网页中的文字信息,利用现有的文本分类器对网页分类。其中的文本分类器是预先训练好的分类器,其基于文本的语意特性对文本进行分类。
利用文本分类器对网页进行分类时,由于仅考虑了网页中的文字特征,而忽略了其他特征,所以准确率和召回率相对较低。
发明内容
有鉴于此,本发明实施例提供了一种网页分类方法和装置,以便提高网页分类的性能。
本发明实施例的技术方案具体是这样实现的:
一种网页分类方法,该方法包括:
确定待分类网页显示的内容信息、以及所述内容信息在所述待分类网页中的位置信息;
根据所述内容信息和所述位置信息对所述待分类网页进行分类。
一种网页分类装置,该装置包括确定模块和分类模块;
所述确定模块,确定待分类网页显示的内容信息、以及所述内容信息在所述待分类网页中的位置信息;
所述分类模块,根据所述内容信息和所述位置信息对所述待分类网页进行分类。
由上述技术方案可见,本发明实施例在对网页进行分类时,不仅考虑待分类网页显示的内容信息,还进一步考虑所述内容信息在所述待分类网页中的位置信息,与利用文本分类器对页面进行分类相比,更加全面地考虑了网页的各项特征,因此能够提高网页分类的准确率或召回率等性能。其中,所述内容信息不仅包括文字内容,还包括图片、链接等内容,与仅根据文字内容进行网页分类相比,能够提高网页分类的准确率。
附图说明
图1是本发明实施例提供的网页分类方法流程图。
图2是本发明实施例提供的网页分类装置的结构图。
图3是本发明实施例提供的网页分类方法详细流程图。
具体实施方式
图1是本发明实施例提供的网页分类方法流程图。
如图1所示,该方法包括:
步骤101,确定待分类网页显示的内容信息、以及所述内容信息在所述待分类网页中的位置信息。
步骤102,根据所述内容信息和所述位置信息对所述待分类网页进行分类。
在根据所述内容信息和所述位置信息对待分类网页进行分类时,可以先根据所述内容信息和所述位置信息将待分类网页分成多个网页块,然后根据分出的各个网页块的特征对待分类网页进行分类。
其中,可以根据网页的内容信息所处的位置、所述内容信息的语义特征和结构特征,和/或网页描述语言(例如html语言)中的标记特征,将网页分成多个网页块。
其中的语义特征是指,网页内容的语义含义,通常通过关键字的形式来表示。结构特征是指,网页内容中各种信息表现形式的数量或者不同信息表现形式之间的比例,例如文字的数量、图片的数量、链接文本的数量、或者文字、图片以及链接文本之间的比例。
具体地,位置相近的网页内容可能组成一个网页块,语义特征相似和/或结构特征相似的网页内容通常组成一个网页块,网页描述语言的一个标记特征下的信息往往能独立构成一个网页块。以html语言为例,标记为div特征的网页内容通常可以分为一个网页块,标记为table特征的网页内容可以分为另一个网页块。
通过将网页分成多个网页块,根据各个网页块在待分类网页中所处的位置、各个网页块的语义特征和各个网页块的结构特征中的任意一项或多项对网页进行分类,可以提高分类准确率。
首先,网页块是相近语义内容的集合,将网页块作为一个特征点来对网页分类,比利用单个关键词对网页分类更加准确。
其次,分出网页块后,可以识别出噪声块,去掉这些噪声块的影响会使网页分类结果更佳。比如,在广告块中出现的是某个新车的广告,但是网页正文块中描述的是体育新闻,如果去掉噪声块,会更容易识别出体育新闻来。
再者,在不同的网页块中出现的特征对网页分类的影响会不同,比如出现在二级导航块中的关键字比正文中出现的关键字更能说明网页的类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010291553.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文本分类方法和装置
- 下一篇:高脚防涝花盆