[发明专利]基于群体搜索行为的网页分类方法及装置在审
申请号: | 201210355241.9 | 申请日: | 2012-09-21 |
公开(公告)号: | CN103678400A | 公开(公告)日: | 2014-03-26 |
发明(设计)人: | 程刚;潘璇;庄子明;李鹤;芦方;周霄骁;刘新鸣 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海波拓知识产权代理有限公司 31264 | 代理人: | 吕静 |
地址: | 518044 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 群体 搜索 行为 网页 分类 方法 装置 | ||
技术领域
本发明涉及计算机技术领域,特别涉及一种基于群体搜索行为的网页分类方法及装置。
背景技术
随着计算机技术及网络技术的飞速发展,网络信息成爆炸性增长,一方面满足了用户对信息的需求,另一方面也产生了一些问题,如何将网页分类,提高用户的体验,是目前搜索引擎供应商面临解决的一个问题。
现有技术中网页分类的方法主要是基于网页本身的信息,利用机器学习的方法对网页进行分类。然而,由于网页是半结构化信息,网页除了含有文本还包括很多的其他信息,例如链接关系、垃圾广告等,单纯利用机器学习的方法很可能会把广告、导航信息等误认为网页正文,从而影响分类的准确率和召回率。
发明内容
本发明的目的在于,提供一种有效的基于群体搜索行为的网页分类方法及装置。
本发明的目的及解决其技术问题是采用以下技术方案来实现的。
一种基于群体搜索行为的网页分类方法,包括:建立搜索词词干分类库,该搜索词词干分类库中包括若干词干以及该若干词干分别对应的分类属性;记录群体搜索行为所使用的搜索词、使用该搜索词时被点击的网页、以及在使用每个搜索词时每个被点击的网页对应的被点击次数;根据该搜索词词干分类库确定所记录的搜索词的分类属性并建立搜索词分类库,该搜索词分类库中包括所记录的搜索词以及该些搜索词分别对应的分类属性;根据该搜索词的分类属性以及使用该搜索词时每个被点击的网页对应的被点击次数确定被点击网页的分类属性。
一种基于群体搜索行为的网页分类装置,包括:词干分类库建立模块,用于建立搜索词词干分类库,该搜索词词干分类库中包括若干词干以及该若干词干分别对应的分类属性;记录模块,用于记录群体搜索行为所使用的搜索词、使用该搜索词时被点击的网页、以及在使用每个搜索词时每个被点击的网页对应的被点击次数;搜索词分类库建立模块,用于根据该搜索词词干分类库确定所记录的搜索词的分类属性并建立搜索词分类库,该搜索词分类库中包括所记录的搜索词以及该些搜索词分别对应的分类属性;网页分类属性确定模块,用于根据该搜索词的分类属性以及使用该搜索词时每个被点击的网页对应的被点击次数确定被点击网页的分类属性。
与现有技术相比,本实施例所提供的网页分类方法借助群体用户的搜索行为来对网页进行分类,可以作为单纯依靠网页本身的信息对网页进行分类的一种有效补充,使得准确率能够得到有效的提高。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例1提供的一种基于群体搜索行为的网页分类方法的流程图。
图2是图1中步骤S13的具体流程图。
图3是图1中步骤S14的具体流程图。
图4是本发明实施例2提供的一种基于群体搜索行为的网页分类方法的流程图。
图5是本发明实施例3提供的一种基于群体搜索行为的网页分类装置的结构图。
图6是图5中搜索词分类库建立模块的具体结构图。
图7是图5中网页分类属性确定模块的具体结构图。
图8是本发明实施例4提供的一种基于群体搜索行为的网页分类装置的结构图。
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的基于群体搜索行为的网页分类方法及装置其具体实施方式、方法、步骤、结构、特征及其功效,详细说明如下。
有关本发明的前述及其他技术内容、特点及功效,在以下配合参考图式的较佳实施例的详细说明中将可清楚呈现。通过具体实施方式的说明,当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图式仅是提供参考与说明之用,并非用来对本发明加以限制。
本发明技术方案的主要设计构思是针对现有技术中单纯采用机器学习依靠网页本身的信息对网页进行分类时,分类的准确率较低的问题,而提出一种实现网页分类的技术方案。与现有技术相比,本发明所提供的网页分类方法借助群体用户的搜索行为来对网页进行分类,可以作为单纯依靠网页本身的信息对网页进行分类的一种有效补充,使得准确率能够得到有效的提高。
实施例1
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210355241.9/2.html,转载请声明来源钻瓜专利网。