[发明专利]一种提供相关搜索的方法和装置有效
申请号: | 201310145958.5 | 申请日: | 2013-04-24 |
公开(公告)号: | CN103279486B | 公开(公告)日: | 2019-03-08 |
发明(设计)人: | 黄际洲 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/35 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 袁媛 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 提供 相关 搜索 方法 装置 | ||
1.一种提供相关搜索RS的方法,其特征在于,该方法包括:
在线下RS挖掘过程中,将历史搜索日志中的各搜索项query分别作为当前query执行以下步骤S01至步骤S02:
S01、将与当前query共现于同一会话session的其他query构成当前query的候选RS;
S02、依据相似度对当前query的候选RS进行聚类得到当前query对应的候选RS簇,保存当前query对应的候选RS簇至数据库;
线上RS提供过程:
S11、获取用户当前输入的query;
S12、获取所述数据库中与用户当前输入的query表达相同语义的query对应的候选RS簇;
S13、选择在所述历史搜索日志中搜索次数排在前N1个的候选RS簇,将选择的候选RS簇中在所述历史搜索日志中搜索次数排在前N2个的候选RS确定为用户当前输入的query的RS,所述N1和N2为预设的正整数。
2.根据权利要求1所述的方法,其特征在于,在所述步骤S01中还包括:
将表达相同语义的query归一化为相同的表述。
3.根据权利要求1所述的方法,其特征在于,在所述步骤S01和所述步骤S02之间还包括:
将与当前query共现于同一session的次数小于预设次数阈值的候选RS过滤掉。
4.根据权利要求1所述的方法,其特征在于,在所述步骤S02中进行聚类时所采用的相似度计算方法具体包括:
确定与RSi共现于同一个session的query构成的query列表以及各query对应的与所述RSi的共现于同一个session的次数,所述RSi为所述候选RS中的一个RS;
将RSi的query列表与所述当前query的候选RS构成的列表求交集;
通过以下公式计算RSi与RSj之间的相似度P(RSi,RSj),所述RSj为所述求交集得到的集合中的一个RS:
其中所述Co_Count(RSi,RSj)为RSi和RSj的共现于同一个session中的次数,R为所述求交集后得到的集合。
5.根据权利要求1所述的方法,其特征在于,在所述步骤S12之前还包括:
查询所述数据库中是否存在与用户当前输入的query表达相同语义的query,如果是,执行所述步骤S12。
6.根据权利要求5所述的方法,其特征在于,若所述数据库中存在所述用户当前输入的query,或者存在将用户当前输入的query进行归一化处理后得到的query,则确定所述数据库中存在与用户当前输入的query表达相同语义的query。
7.根据权利要求2或6所述的方法,其特征在于,所述归一化包括以下处理中的至少一种:
对query进行去除停用词的处理;
将query中的词替换为指定的同义词;
将query中错误的书写转化为正确的书写。
8.根据权利要求1所述的方法,其特征在于,候选RS簇在所述历史搜索日志中的搜索次数为该候选RS簇包含的候选RS的搜索次数之和。
9.根据权利要求1所述的方法,其特征在于,在所述步骤S13之后还包括:
S14、将所述用户当前输入的query的RS展示在用户当前输入的query的搜索结果页上。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310145958.5/1.html,转载请声明来源钻瓜专利网。