[发明专利]一种搜索建议词生成的方法以及装置有效
申请号: | 201310485782.8 | 申请日: | 2013-10-16 |
公开(公告)号: | CN103544266B | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 崔代超 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京润泽恒知识产权代理有限公司11319 | 代理人: | 赵娟 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 搜索 建议 生成 方法 以及 装置 | ||
技术领域
本发明涉及互联网数据处理的技术领域,特别是涉及一种搜索建议词生成的方法,以及,一种搜索建议词生成的装置。
背景技术
这些年全球最大的搜索引擎谷歌推出了搜索建议的服务:即在用户在输入部分关键词时搜索引擎马上给出相关联想词。搜索建议可以大大减少用户输入成本、纠正输入错误、进行输入提示等,它的出现让人们可以更快、更准确的进行搜索,如今已被各大搜索引擎采用。
现有的搜索建议的实现主要通过以下机制:搜索引擎收集此用户搜索历史数据(主要是搜索关键词和搜索次数),当用户在搜索框开始输入时,搜索引擎会根据用户已输入部分在历史搜索数据文件中进行相关性匹配,得到搜索建议,在进行除杂、排重等一系列处理后,并根据搜索热度等因素对搜索建议词进行排序。
另外一种机制是建立在以往群体用户搜索历史的基础上的,即基于众多搜索请求者的经验型建议:用户得到的搜索建议是被最多人搜过的关键词。因此,这几种搜索建议机制有其天然的缺陷:首先时效性差:只有在很多人搜过、形成一定的数据积累后才可能被当作搜索建议提供给他人;同时召回低:对某些搜索数量少的关键词,搜索引擎一般不能给出建议。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种搜索建议词生成的方法和相应的一种搜索建议词生成的装置。
依据本发明的一个方面,提供了一种搜索建议词生成的方法,包括:
接收搜索字符串;
将所述搜索字符串映射为一个或多个第一分词;
获取一个或多个与所述第一分词相关联的关联第二分词;
依据所述一个或多个第一分词与所述一个或多个关联第二分词组合成一个或多个搜索建议词。
可选地,所述方法还包括:
推送所述一个或多个搜索建议词。
可选地,所述获取一个或多个与所述第一分词相关联的关联第二分词的步骤包括:
将抓取到的包含所述第一分词的多个网页标题进行分词,得到分词列表;
将所述分词列表中除所述第一分词外的一个或多个其余分词作为第二分词;
分别计算所述一个或多个第一分词与所述第二分词的同现率;
提取所述同现率高于预设阈值的第二分词作为关联第二分词。
可选地,所述将所述搜索字符串映射为一个或多个第一分词的步骤包括:
提取所述搜索字符串所映射的一个第一分词;
或者,
当接收到的搜索字符串为复合词时,将所述搜索字符串拆分为多个搜索子词;
提取所述多个搜索子词所映射的多个第一分词。
可选地,所述计算所述一个或多个第一分词与所述第二分词的同现率的步骤包括:
当所述搜索字符串被映射为一个第一分词时,提取所述第一分词对应的预置索引表;其中,所述预置索引表包括所述第一分词所属的网页标题,以及,每个网页标题对应的所有第二分词;
分别获取每个预置索引表中各个第二分词出现的次数,以及所述索引表的记录总数;
分别计算所述第二分词出现的次数与所述索引表的记录总数的比值,得到所述第一分词与各个第二分词的同现率。
可选地,所述计算所述一个或多个第一分词与所述第二分词的同现率的步骤包括:
当所述搜索字符串被映射为多个第一分词时,分别提取所述多个第一分词对应的多个预置索引表;其中,所述各个预置索引表中包括所述第一分词所属的网页标题,以及,每个网页标题对应的第二分词;
提取与所述多个第一分词同时出现的第二分词作为候选分词;
分别计算各个索引表中所述第一分词与所述候选分词的同现率,所述同现率为所述索引表中各个候选分词出现的次数与所述索引表中的记录总数的比值;
分别为所述多个第一分词与所述各个候选分词的同现率配置对应的多个权重;
分别计算多个配置了权重的同现率的平均值,作为所述多个第一分词与所述候选分词的同现率。
可选地,所述计算所述一个或多个第一分词与所述第二分词的同现率的步骤包括:
当所述搜索字符串被映射为多个第一分词时,分别提取所述多个第一分词对应的多个预置索引表;其中,所述各个预置索引表中包括所述第一分词所属的网页标题,以及,每个网页标题对应的第二分词;
采用所述多个索引表确定主分词,所述主分词为记录总数最多的索引表对应的第一分词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310485782.8/2.html,转载请声明来源钻瓜专利网。