[发明专利]一种网页评估值的确定及运用的方法、系统有效
申请号: | 200910118150.1 | 申请日: | 2009-03-04 |
公开(公告)号: | CN101499098A | 公开(公告)日: | 2009-08-05 |
发明(设计)人: | 陈华 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 | 代理人: | 魏 杉 |
地址: | 英属开曼群*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 评估 确定 运用 方法 系统 | ||
1.一种利用计算机对网页评估值进行确定的方法,其特征在于,包括如 下步骤:
从搜索引擎服务器系统获取具有相同或接近相同的内容的网页;
搜索引擎服务器系统确定所述各网页的生成时间及第一评估值,所述第一 评估值为根据包括外链在内的数据而形成的评估值;
搜索引擎服务器系统根据所述各网页的第一评估值确定生成时间最早的 网页的第二评估值,以根据各网页的所述第一评估值和所述第二评估值进行排 序,所述第二评估值为与所述生成时间最早的网页具有相同或接近相同的内容 的网页的第一评估值之和与第一加权系数的乘积加上所述生成时间最早的网 页的第一评估值与第二加权系数的乘积。
2.如权利要求1所述的方法,其特征在于,所述具有相同或接近相同的 内容的网页,包括数字指纹相同的网页。
3.如权利要求2所述的方法,其特征在于,所述获取具有相同或接近相 同的内容的网页,包括:
获取各网页中非第一段和非最后一段的中间内容最长的段落或段落非第 一句和非最后一句的最长句子,并生成数字指纹;
根据数字指纹确定各网页内容是否相同后获取具有相同或接近相同的内 容的网页。
4.如权利要求1所述的方法,其特征在于,所述确定所述各网页的生成 时间,包括下列方式之一或者其组合:
根据网页统一资源定位符URL包含的时间确定;
根据内容类网页中的时间确定;
根据抓取网页的时间确定;
根据最早将网页收入索引的时间确定。
5.如权利要求1所述的方法,其特征在于,所述第二评估值大于所述第 一评估值。
6.如权利要求5所述的方法,其特征在于,所述第一加权系数与所述第 二加权系数的取值相同或不同。
7.一种根据权利要求1至6任一项所述的网页评估值对搜索查询结果进 行排序的方法,其特征在于,包括如下步骤:
从搜索引擎服务器系统获取查询后的查询结果;
搜索引擎服务器系统根据各网页的第一评估值及生成时间最早的网页的 第二评估值对查询结果排序。
8.如权利要求7所述的方法,其特征在于,进一步包括:
搜索引擎服务器在查询结果中显示每个网页的转载次数。
9.一种搜索引擎服务器系统,其特征在于,包括:
爬虫系统,用于获取具有相同或接近相同的内容的网页;
索引系统,用于确定各网页的生成时间及各网页的第一评估值,并根据各 网页的第一评估值确定生成时间最早的网页的第二评估值,以根据各网页的所 述第一评估值和所述第二评估值进行排序,所述第一评估值为根据包括其他网 页指向在内的数据而形成的评估值确定,所述第二评估值为与所述生成时间最 早的网页具有相同或接近相同的内容的网页的第一评估值之和与第一加权系 数的乘积加上所述生成时间最早的网页的第一评估值与第二加权系数的乘积。
10.如权利要求9所述的搜索引擎服务器系统,其特征在于,所述索引系 统进一步用于根据网页的数字指纹确定各网页是否具有相同或接近相同的内 容。
11.如权利要求9所述的搜索引擎服务器系统,其特征在于,所述索引系 统包括:
数字指纹生成单元,用于获取各网页中非第一段和非最后一段的中间内容 最长的段落或段落非第一句和非最后一句的最长句子,并生成数字指纹;
比较单元,用于根据数字指纹确定各网页内容是否相同;
获取单元,用于根据数字指纹确定各网页内容是否相同后,获取具有相同 或接近相同的内容的网页。
12.如权利要求9所述的搜索引擎服务器系统,其特征在于,所述索引系 统进一步用于根据下列方式之一或者其组合确定网页生成时间:
网页统一资源定位符URL包含的时间;
内容类网页中的时间;
抓取网页的时间;
最早将网页收入索引的时间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910118150.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种WEB页面布局的方法及系统
- 下一篇:一种除数是127×2n的快速除法器