[发明专利]专题生成方法、装置、电子设备和存储介质在审
申请号: | 202010227288.1 | 申请日: | 2020-03-27 |
公开(公告)号: | CN111460257A | 公开(公告)日: | 2020-07-28 |
发明(设计)人: | 韩翠云;陈玉光;黄佳艳;李法远;刘远圳;潘禄 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/9535;G06F16/35;G06F40/30 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 王艳斌 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 专题 生成 方法 装置 电子设备 存储 介质 | ||
1.一种专题生成方法,其特征在于,所述方法包括:
获取目标搜索词;
根据所述目标搜索词生成专题名称;
根据所述目标搜索词进行资源抓取,以获取多个候选搜索结果;
根据所述专题名称对所述多个候选搜索结果进行过滤,得到所述专题名称对应的多个目标搜索结果;
将多个目标搜索结果输入归一判别模型,确定任意两个目标搜索结果的相似度,并根据所述任意两个目标搜索结果的相似度进行聚类以生成所述多个搜索结果类别;以及
根据所述专题名称和所述多个搜索结果类别生成所述专题。
2.如权利要求1所述的专题生成方法,其特征在于,所述根据所述专题名称对所述多个候选搜索结果进行过滤,得到所述专题名称对应的多个目标搜索结果,包括:
将所述多个候选搜索结果和所述专题名称输入经过训练的从属判别模型,以获取所述从属判别模型输出的概率值;其中,所述概率值为所述多个候选搜索结果分别属于所述专题名称的概率值;以及
确定所述概率值大于第一预设阈值,则将所述概率值对应的候选搜索结果作为目标搜索结果。
3.如权利要求2所述的专题生成方法,其特征在于,所述从属判别模型,已经根据样本专题名称与已经标注的所述样本专题名称对应的搜索结果进行训练。
4.如权利要求1所述的专题生成方法,其特征在于,所述根据所述任意两个目标搜索结果的相似度进行聚类以生成所述多个搜索结果类别,包括:
确定任意两个目标搜索结果的相似度大于相似度阈值,则对所述任意两个目标搜索结果进行聚类以生成所述多个搜索结果类别。
5.如权利要求1所述的专题生成方法,其特征在于,所述根据所述目标搜索词生成专题名称,包括:
根据所述目标搜索词的类型获取对应的专题名称模板;
将所述目标搜索词添加至所述对应的专题名称模板,以生成所述专题名称。
6.如权利要求1所述的专题生成方法,其特征在于,所述根据所述目标搜索词进行资源抓取,以获取多个候选搜索结果,包括:
根据所述目标搜索词生成搜索词序列;
根据所述搜索词序列进行资源抓取,以获取所述多个候选搜索结果。
7.如权利要求6所述的专题生成方法,其特征在于,所述根据所述目标搜索词生成搜索词序列,包括:
根据所述目标搜索词获取与所述目标搜索词相关的多个用户搜索词;
获取所述多个用户搜索词的频率;
将频率大于第二预设阈值的用户搜索词添加至所述搜索词序列。
8.如权利要求1-7任一项所述的专题生成方法,其特征在于,所述根据所述专题名称和所述多个搜索结果类别生成所述专题,包括:
按照预设排序规则对所述多个搜索结果类别进行排序,得到排序结果;
根据所述专题名称和所述排序结果生成所述专题。
9.一种专题生成装置,其特征在于,所述装置包括:
第一获取模块,用于获取目标搜索词;
第一生成模块,用于根据所述目标搜索词生成专题名称;
第二获取模块,用于根据所述目标搜索词进行资源抓取,以获取多个候选搜索结果;
过滤模块,用于根据所述专题名称对所述多个候选搜索结果进行过滤,得到所述专题名称对应的多个目标搜索结果;
第二生成模块,用于将多个目标搜索结果输入归一判别模型,确定任意两个目标搜索结果的相似度,并根据所述任意两个目标搜索结果的相似度进行聚类以生成所述多个搜索结果类别;以及
第三生成模块,用于根据所述专题名称和所述多个搜索结果类别生成所述专题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010227288.1/1.html,转载请声明来源钻瓜专利网。