[发明专利]一种确定网页类型的方法和装置有效
申请号: | 201110282850.1 | 申请日: | 2011-09-21 |
公开(公告)号: | CN103020067A | 公开(公告)日: | 2013-04-03 |
发明(设计)人: | 黄际洲 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 袁媛 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 确定 网页 类型 方法 装置 | ||
【技术领域】
本发明涉及计算机技术领域,特别涉及一种确定网页类型的方法和装置。
【背景技术】
随着网络技术的迅猛发展,网络信息的不断丰富,用户已经习惯于通过搜索引擎从网络中获取关心的信息。在搜索引擎技术中,无论是需求分析、搜索结果排序或个性化搜索,均可能涉及到确定网页类型的操作。诸如,在需求分析中,通过分析搜索日志中query对应的被点击网页的类型即可确定该query的搜索需求;在搜索结果排序中,根据网页类型与query搜索需求之间的一致性确定网页在搜索结果中的排序;在个性化搜索中,通过分析搜索日志中用户所点击、浏览的网页的类型,确定用户的搜索习惯或搜索兴趣,从而为用户提供符合其搜索习惯或搜索兴趣的个性化搜索结果。
现有的确定网页类型的方式,主要是抽取网页文本的文本特征向量,利用分类器对各网页进行分类确定网页类型,其中在抽取网页文本的文本特征向量时,需要下载网页内容,对网页内容进行文本分析,提取出核心词及其权重构成文本特征向量。这种方式存在以下缺陷:
缺陷一:需要下载和分析网页内容,对于海量数据而言,效率较低,速度较慢。
缺陷二:很多网站为了提高其在搜索引擎中的排序,会人为在网页中加入大量的类别关键词,这种作弊手段很大程度上影响了确定这些网页类型的准确性。
缺陷三:网络中存在大量不同形式的网页,网页形式的千差万别对于分析网页内容带来难度。
【发明内容】
有鉴于此,本发明提供了一种确定网页类型的方法和装置,以便于解决现有方式中存在的上述缺陷。
具体技术方案如下:
一种确定网页类型的方法,该方法包括:
S1、获取搜索日志中待识别网页被点击时所对应的所有query;
S2、确定步骤S1所获取query的各n元词组n-gram构成所述待识别网页的特征向量,n为预设的一个或多个正整数;
S3、基于所述待识别网页的特征向量和各预设类型的特征向量之间的相关性,确定所述待识别网页的类型。
根据本发明一优选实施例,所述步骤S1还包括:获取所述待识别网页的标题;
所述步骤S2中还包括:确定所述待识别网页的标题的各n-gram,将所述待识别网页的标题的各n-gram与所述步骤S1所获取query的各n-gram共同构成所述待识别网页的特征向量。
根据本发明一优选实施例,所述预设类型的特征向量是预先基于各预设类型的训练语料的n-gram形成的。
根据本发明一优选实施例,所述预设类型的训练语料的获取方法包括:
A1、获取所述预设类型的种子query;
A2、获取搜索日志中所述种子query对应的被点击网页,保留被点击次数大于设定被点击次数阈值的网页;
A3、确定所述搜索日志中步骤A2保留的网页被点击时对应的所有query,记录各query对应的网页被点击次数,得到所述预设类型的训练语料;或者,确定所述搜索日志中步骤A2保留的网页被点击时对应的所有query和网页标题,记录各query对应的网页被点击次数和网页标题的出现次数,得到所述预设类型的训练语料。
根据本发明一优选实施例,所述步骤S3具体包括:
计算所述待识别网页的特征向量与各预设类型的特征向量之间的重叠率,根据计算的重叠率确定待识别网页的类型;或者,
计算所述待识别网页的特征向量与各预设类型的特征向量之间的相似度,根据计算的相似度确定待识别网页的类型;或者,
预先将各预设类型的特征向量作为特征训练出分类器,所述待识别网页的特征向量作为所述分类器的输入,依据所述分类器的分类结果确定所述待识别网页的类型。
根据本发明一优选实施例,计算所述待识别网页的特征向量与预设类型的特征向量之间的重叠率包括:
计算所述待识别网页的特征向量和预设类型的特征向量之间重叠的n-gram在待识别网页的特征向量中的出现次数乘以所述重叠的n-gram在预设类型的特征向量中的权重之和,再除以所述待识别网页的特征向量中所有n-gram的出现次数之和所得到的值;
其中,预设类型的特征向量中n-gram的权重为:在该预设类型的训练语料中该n-gram的出现次数与所有n-gram的总出现次数的比值。
根据本发明一优选实施例,计算所述待识别网页的特征向量与各预设类型的特征向量之间的相似度包括:
计算所述待识别网页的特征向量与各预设类型的特征向量之间的余弦相似度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110282850.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种互动型环艺喷水龙
- 下一篇:一种数学教学用线段等分划线尺