[发明专利]一种基于用户行为信息的搜索引擎检索结果重排序方法有效
申请号: | 200710099594.6 | 申请日: | 2007-05-25 |
公开(公告)号: | CN101055587A | 公开(公告)日: | 2007-10-17 |
发明(设计)人: | 岑荣伟;刘奕群;张敏;金奕江;马少平 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100084北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于互联网信息处理领域,其特征在于:它根据单个或多个搜索引擎日志,首先利用查询对应的用户数信息,从中筛选出用户关注的常用查询集合;随后计算常用查询集中各查询对应的用户点击页面对应的用户点击率,若利用多搜索引擎日志信息,则对用户点击率进行合并;根据用户点击率对用户点击页面进行有效筛选,并把相关查询和对应的结果页面地址保存到相关数据库;最后,当用户提交查询需求时,把从用户信息得到的结果和搜索引擎搜索得到的结果进行有效融合,重新排序后返回给用户。该方法具有计算机自动完成,实时有效客观地提交搜索引擎性能的优点。 | ||
搜索关键词: | 一种 基于 用户 行为 信息 搜索引擎 检索 结果 排序 方法 | ||
【主权项】:
1.一种基于用户行为信息的搜索引擎检索结果重排序方法,其特征在于该方法是在搜索引擎的计算机上依次按以下步骤实现的:步骤(1).用户常用查询集的筛选:步骤(1.1).数据预处理:通过搜索引擎网络服务器从至少一个搜索引擎的用户日志中提取供基于用户行为进行搜索结果重排序的用户信息,形成的用户信息至少包含以下内容:Query:用户提交的查询;URL:该查询对应的用户点击的结果页面地址;Id:系统自动分配给每个用户每次使用搜索引擎时的标识号;所述步骤(1.1)依次含有以下各子步骤:步骤(1.1.1).把搜索引擎网络服务器记录的编码格式转换成国家标准汉字编码的GBK格式;步骤(1.1.2).去除所述Query、URL、Id以外的信息,并把日志信息整理成所述用户日志的三个内容项字符串的形式;步骤(1.1.3).在步骤(1.1.2)的范围内,再利用如KMP的字符串匹配算法过滤用户查询中的噪声信息,仅保留直接反映搜索引擎普通用户查询需求行为的内容项;步骤(1.2).提取查询用户数信息:对于在设定的最近时间段内用户日志中的用户提交的每一个查询Q,统计提交过该查询Q的用户数,该数值表示了用户对该查询的关注度;步骤(1.3).常用查询集的筛选:若:某查询Q在搜索引擎用户日志中其查询用户数小于设定值,则排除在常用查询集合之外;否则,把该查询Q放在所述常用查询集合S中;步骤(2).用户点击率信息的提取:步骤(2.1).单搜索引擎用户点击率的提取:
步骤(2.2).多搜索引擎下用户点击率信息合并,用一个概率表达式P(URL|查询Q)来表示在合并后对查询Q的用户点击率的结果页面地址URL的用户点击率:
其中,P(SEi|查询Q)表示在第i个搜索引擎SEi中查询Q的概率,用SEi查询可信度表示:
P(URL|SEi,查询Q)表示在搜索引擎日志SEi中,对于查询Q,用户点击结果页面地址URL的点击率,用步骤(2.1)中所述的方法求出,i=1,2,...,I,因而P(URL|SEi,查询Q)取值范围在0~1之间;步骤(3).利用用户行为信息进行搜索引擎结果改进:步骤(3.1).用以下两种方法之一对用户点击的结果页面进行筛选,再把结果页面集保存;固定点击率和法:对于查询Q,寻找根据搜索引擎用户行为信息的用户点击率最大的前M个页面,该M个页面满足以下条件:连续前M个页面合并后的用户点击率之和大于0.8,但连续前M-1个页面的合并后的用户点击率之和小于0.8,而且该M个页面的用户点击率都大于0.1;固定结果页面数法:对于查询Q,寻找用户点击率最大的连续前n个页面:该n个页面对应的用户点击率都大于0.1,且n≤3;步骤(3.2).搜索引擎原始检索结果的获取:对于查询Q,将其提交给指定的搜索引擎得到该搜索引擎的检索结果序列;步骤(3.3).基于用户行为信息的检索结果合并:当用户向指定搜索引擎提交查询Q进行查询时,根据步骤(3.2)得到搜索引擎原始结果序列SEQ,同时提交给步骤(3.1)根据用户日志信息确定的结果页面集合中查询得到结果页面序列LOG,按如下方法合并该两个序列,将最终结果返回给用户:按用户点击率大小依次取序列LOG中的每一个结果页面,放入最终返回结果页面集,至取完为止;再取序列SEQ中的每一个结果页面,放入最终返回结果页面集,至取完为止,若最终返回结果页面集中已经存在该结果页面,则放弃该页面。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200710099594.6/,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置