[发明专利]生成共现关键词的方法、提供关联搜索词的方法以及系统有效
申请号: | 201310165690.1 | 申请日: | 2013-05-08 |
公开(公告)号: | CN103258025A | 公开(公告)日: | 2013-08-21 |
发明(设计)人: | 阮星华 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 罗延红;王秀君 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 生成 关键词 方法 提供 关联 搜索词 以及 系统 | ||
技术领域
本申请涉及一种生成共现关键词的方法、提供关联搜索词的方法以及系统,尤其涉及一种通过对搜索日志进行分析,从而找出用户通常会一同搜索的话题的技术。
背景技术
搜索引擎的“相关检索词”功能是体现搜索引擎智能性的一个重要方面。“相关检索词”功能能够根据用户的搜索词为用户推荐N个(一般是10个)相关的搜索词,对用户的搜索行为起到一个提示和引导的作用,帮助用户更便捷地找到所需要的信息。例如,当用户搜索“万有引力”的时候,不同的用户可能有不同的需求:
(1)查找万有引力定律或者公式;
(2)查找2011年赵天宇导演的电影《万有引力》;
(3)查找汪苏泷的歌曲《万有引力》。
当然,也可能还有其他与“万有引力”相关的需求。总体说来,用户的需求是多元化的,同样一个搜索词对于不同的用户来说可能有不同的需求。在这种情况下,搜索引擎在满足主要需求的前提下,还需要尽量满足多元化的次要需求。更进一步,如果搜索引擎还能够推荐出用户可能存在“潜在需求”的相关检索词,则更能够体现搜索引擎的智能性,提高用户体验吸引用户进行更多的检索查询。
发明内容
本发明的目的在于提供一种生成共现关键词的方法、提供关联搜索词的方法以及系统,通过对搜索日志进行分析,挖掘出一般用户通常会一同检索的话题,以扩展用户的检索入口。
根据本发明的一方面,提供一种一种生成共现关键词的方法,包括:a)获取预定时间段的搜索日志,所述搜索日志包括用户使用搜索词进行搜索的搜索记录;b)根据各个用户的搜索记录,为每个用户计算至少一个搜索词簇,每个搜索词簇包括彼此之间的相似度高于预定阈值的至少两个搜索词或者与任何其他搜索词都不相似的一个搜索词;c)从计算的每个搜索词簇选择权重值超过权重阈值的至少一个实词作为所述搜索词簇的代表关键词;d)通过对代表关键词进行配对形成多个代表关键词对,并且计算每个代表关键词对出现的次数;e)选择出现的次数最高的代表关键词对作为共现关键词对,并且将选择的共现关键词对存储在共现词典中。
优选地,步骤b)包括,对用户的搜索记录执行以下操作:对所述搜索记录中的搜索词进行切词,并且计算分词的权重;针对每两个搜索词,根据同时出现在所述两个搜索词中的各个分词的权重,计算所述两个搜索词之间的相似度;选取计算的彼此之间的相似度高于预定阈值的至少两个搜索词或者与任何其他搜索词都不相似的一个搜索词作为搜索词簇。
优选地,步骤b)还包括:在对搜索词进行切词的处理中,从所述搜索记录中去除重复出现的搜索词。
优选地,通过以下公式计算两个搜索词之间的相似度β:
β=∑min(w1i,w2i)
其中,w1i和w2i分别是两个搜索词中共同出现的第i个分词的权重值,i≤n,n为所述共同出现的分词的个数。
优选地,在步骤d)中,使用包括配对的两个代表关键词以及其出现次数的三元组,累积计算在为各个用户形成的全部代表关键词对当中,每个代表关键词对出现的次数。
优选地,所述的方法还包括:将在步骤b)中计算出的全部搜索词簇存储到搜索词簇词典。
优选地,所述的方法还包括:通过将共现关键词对出现的次数与代表关键词对的个数相除计算所述共现关键词对的共现率,并且在共现词典中还存储所述共现关键词对的共现率。
优选地,所述的方法还包括:如果接收到包括共现关键词对中的一个代表关键词的搜索词,则从搜索词簇词典找出包括共现关键词对中的另一个代表关键词的搜索词簇,并且作为响应,发送找出的搜索词簇中的一个或多个搜索词。
根据本发明的另一方面,提供一种生成共现关键词的系统,包括:日志获取模块,用于获取预定时间段的搜索日志,所述搜索日志包括用户使用搜索词进行搜索的搜索记录;搜索词簇计算模块,用于根据用户的搜索记录,为用户计算至少一个搜索词簇,每个搜索词簇包括彼此之间的相似度高于预定阈值的至少两个搜索词或者与任何其他搜索词都不相似的一个搜索词;共现关键词对确定模块,用于从计算的每个搜索词簇选择权重值超过权重阈值的至少一个实词作为所述搜索词簇的代表关键词,通过对代表关键词进行配对形成多个代表关键词对,计算每个代表关键词对出现的次数,并且选择出现的次数最高的代表关键词对作为共现关键词对;词典存储模块,用于将选择的共现关键词对存储在共现词典中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310165690.1/2.html,转载请声明来源钻瓜专利网。