[发明专利]搜索推荐词确定方法、装置、电子设备及计算机可读介质有效
申请号: | 202010306239.7 | 申请日: | 2020-04-17 |
公开(公告)号: | CN111538903B | 公开(公告)日: | 2023-03-31 |
发明(设计)人: | 彭睿棋 | 申请(专利权)人: | 抖音视界有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F40/284 |
代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 李莎 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 搜索 推荐 确定 方法 装置 电子设备 计算机 可读 介质 | ||
1.一种搜索推荐词确定方法,其特征在于,包括:
对搜索词进行分词,确定至少一个查询词,基于所述至少一个查询词获取网页集合;
在所述网页集合中获取网页内容包含所述搜索词的目标网页;
在所述目标网页中提取相关候选词,基于所述搜索词在所述目标网页中出现的第一概率,与所述相关候选词在所述目标网页中出现的第二概率,确定所述搜索词是否为搜索推荐词;所述第一概率为所述搜索词在所述目标网页中的出现次数与所述目标网页中样本字数的比值,所述第二概率为所述相关候选词在所述目标网页中的出现次数与所述目标网页中样本字数的比值;
所述基于所述搜索词在所述目标网页中出现的第一概率,与所述相关候选词在所述目标网页中出现的第二概率,确定所述搜索词是否为搜索推荐词,包括:基于所述相关候选词与所述搜索词所形成的组合词在所述目标网页中出现的第四概率以及所述第一概率、所述第二概率,确定所述搜索词是否为搜索推荐词。
2.根据权利要求1所述的方法,其特征在于,所述在所述网页集合中获取网页内容包含所述搜索词的目标网页之前,还包括:
计算所述搜索词在所述网页集合包括的网页中出现的第三概率;
所述在所述网页集合中获取网页内容包含所述搜索词的目标网页,包括:若所述第三概率大于预设概率,在所述网页集合中确定网页内容包含所述搜索词的目标网页;
所述方法还包括:若所述第三概率小于预设概率,确定所述搜索词为非搜索推荐词。
3.根据权利要求1所述的方法,其特征在于,所述对搜索词进行分词,确定至少一个查询词,基于所述至少一个查询词获取网页集合,包括:
基于所述至少一个查询词进行查询,获取包含所述至少一个查询词的多个网页;
基于所述至少一个查询词在所述搜索词的预设权重,计算各个网页与所述搜索词的相关性分值;
将所述相关性分值高于预设阈值的至少一个网页组合成网页集合。
4.根据权利要求1所述的方法,其特征在于,所述在所述目标网页中提取相关候选词,包括:
在所述目标网页中进行关键词提取,获得多个候选词;
计算各个所述候选词与所述搜索词的相似度,并将基于相似度降序排序后靠前的预设数值个候选词作为相关候选词。
5.根据权利要求4所述的方法,其特征在于,所述将基于相似度降序排序后靠前的预设数值个候选词作为相关候选词,包括:
基于所述搜索词对所述预设数值个候选词进行划分并去重,将去重结果作为相关候选词。
6.根据权利要求1或5所述的方法,其特征在于,所述目标网页由所述网页集合中网页内容包含所述搜索词的所有网页形成;所述基于所述搜索词在所述目标网页中出现的第一概率,与所述相关候选词在所述目标网页中出现的第二概率,确定所述搜索词是否为搜索推荐词,包括:
计算所述搜索词在所述目标网页中出现的第一概率;
计算所述相关候选词在所述目标网页中出现的第二概率;
将所述第一概率与所述第二概率的乘积确定为目标概率;
基于所述搜索词将所述相关候选词与所述搜索词组合形成一个组合词,计算所述组合词在所述目标网页中出现的第四概率;
确定所述第四概率大于目标概率,将所述搜索词确定为非搜索推荐词。
7.根据权利要求5所述的方法,其特征在于,所述基于所述搜索词对所述预设数值个候选词进行划分并去重,将去重结果作为相关候选词之后,还包括:
确定所述去重结果中不包含任一字符,将所述搜索词确定为搜索推荐词。
8.根据权利要求6所述的方法,其特征在于,所述将所述搜索词确定为非搜索推荐词之后,还包括:
将所述组合词替换所述搜索词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于抖音视界有限公司,未经抖音视界有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010306239.7/1.html,转载请声明来源钻瓜专利网。