[发明专利]确定权威网站的方法及装置有效
申请号: | 200810225178.0 | 申请日: | 2008-10-30 |
公开(公告)号: | CN101383730A | 公开(公告)日: | 2009-03-11 |
发明(设计)人: | 佟子健 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L12/26 |
代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 逯长明 |
地址: | 100084北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 确定 权威 网站 方法 装置 | ||
1.一种确定权威网站的方法,其特征在于,包括:
搜索引擎获取同一领域内的多个关键词;
获取所述多个关键词分别对应的被点击网页;
分别统计各网站内的所述被点击网页的局部信息,所述被点击网页的局部 信息具体:是网页被点击的次数和点击的用户数,或者是被点击的网页数和点 击的用户数,或者是网页被点击的次数、被点击的网页数、以及点击的用户数 这三者;
根据所述局部信息确定对应所述领域的权威网站;
对确定的对应所述领域的权威网站下网页的查询词集合进行过滤,重新确 定所述领域内的关键词;具体包括:如果所述查询词集合中的查询词对应的被 点击网站中所述领域权威网站的数量与该领域已知权威网站的数量的比值大 于设定的第一阈值,则确定所述查询词为所述领域内的关键词;和/或如果所 述查询词集合中的查询词对应的被点击网站中所述领域权威网站的数量与所 述查询词对应的被点击网站数量的比值大于设定的第一阈值,则确定所述查询 词为所述领域内的关键词;和/或如果所述查询词集合中的查询词对应的被点 击网站中属于所述领域权威网站的数量与查询词对应的被点击网页数量的比 值大于设定的第一阈值,则确定所述查询词为所述领域内的关键词;
根据重新确定的所述领域内的关键词进行迭代处理,重新确定对应所述领 域的权威网站;
当迭代处理满足设定的终止条件后,根据迭代结果确定对应所述领域的权 威网站。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
实时存储用户的查询信息,所述查询信息包括:查询词、查询时间、查询 用户、被点击网页;
根据所述查询信息统计全局信息,所述全局信息包括:每个网站内被点击 网页的数量、网站内被点击网页对应的所有查询词的数量、网站内被点击网页 对应的所有查询词的查询量;
所述获取所述领域内的关键词对应的被点击网页包括:
根据所述用户的查询信息及所述全局信息获取所述关键词对应的被点击 网页。
3.根据权利要求1所述的方法,其特征在于,所述根据所述局部信息确 定对应所述领域的权威网站包括:
根据所述局部信息计算对应各网站的判决参数;
如果所述判决参数超过设定的阈值,则将对应该判决参数的网站设定为权 威网站。
4.根据权利要求3所述的方法,其特征在于,
所述判决参数包括:
所述领域内某网站中网页被点击数与所述领域内所有网站中网页被点击 数的比值;和/或
所述领域内某网站中被点击网页数与所述领域内所有网站被点击的网页 数的比值。
5.根据权利要求4所述的方法,其特征在于,当所述判决参数有多个时, 对应每个判决参数都设置有一个阈值。
6.根据权利要求1至5任一项所述的方法,其特征在于,还包括:
在统计各网站内的所述被点击网页的局部信息之前,对所述网页进行过 滤;所述对网页进行过滤包括:
过滤掉同一个用户多次查询相同查询词点击的多个网页;和/或
过滤掉对应所述查询词在短期内爆发式查询点击的多个网页。
7.根据权利要求1所述的方法,其特征在于,设定的终止条件包括:
如果迭代处理过程中确定的权威网站连续一致的次数超过预定的一致次 数阈值,则终止迭代处理;或者
如果迭代处理次数超过预定的迭代次数阈值,则终止迭代处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810225178.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种机械手臂遥操作系统及遥操作方法
- 下一篇:机械手臂