[发明专利]识别噪声query的方法、装置、电子设备和可读存储介质在审
申请号: | 202210306752.5 | 申请日: | 2022-03-25 |
公开(公告)号: | CN114757267A | 公开(公告)日: | 2022-07-15 |
发明(设计)人: | 王亮 | 申请(专利权)人: | 北京爱奇艺科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/33 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 曾军 |
地址: | 100080 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 识别 噪声 query 方法 装置 电子设备 可读 存储 介质 | ||
1.一种识别噪声query的方法,其特征在于,所述方法包括:
获取目标query,其中,所述目标query用于指示搜索引擎接收到的查询词句;
将所述目标query输入特征抽取模块,得到目标query的特征,其中,所述目标query的特征包括模板匹配特征、搜索文档生成概率和搜索日志生成概率,所述搜索文档生成概率用于指示所述目标query在搜索文档集中的稀疏性特征,所述搜索日志生成概率用于指示所述目标query在搜索日志集中的稀疏性特征;
将所述目标query的特征输入目标识别模型,得到识别结果,其中,所述识别结果用于指示所述目标query是否为噪声query。
2.根据权利要求1所述的方法,其特征在于,所述得到目标query的特征包括:
根据预设的噪声模板获取目标query的模板匹配特征;
根据所述目标query的每个目标N元组在所述搜索文档集中的文档频率特征,确定所述目标query的搜索文档生成概率,其中,所述目标N元组包括所述目标query的N个连续的词汇;
根据所述目标query的每个目标N元组在预设时段内的搜索日志集中的日志频率特征,确定所述目标query的搜索日志生成概率。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标query在所述搜索文档集中的文档频率特征,确定所述目标query的搜索文档生成概率包括:
将所述目标query拆分为多个目标N元组;
根据预设的第一字典,确定每个目标N元组针对搜索文档集出现的文档频率特征,其中,所述第一字典中包含所述搜索文档集下第一N元组和第一频率特征之间的对应关系;
根据所述目标query的每个文档频率特征,生成所述搜索文档生成概率。
4.根据权利要求3所述的方法,其特征在于,根据预设的第一字典确定每个目标N元组针对搜索文档集出现的文档频率特征之前,所述方法还包括:
获取多个第一N元组,其中,所述第一N元组是通过对所述搜索文档集中的样本搜索记录进行拆分得到的,所述第一N元组包括所述样本搜索记录的N个连续的词汇;
获取包含所述第一N元组的样本文档数量;
根据所述样本文档数量和所述搜索文档集中的搜索文档总数,确定所述第一N元组的第一频率特征;
根据所述第一N元组和所述第一频率特征之间的对应关系,构建所述第一字典。
5.根据权利要求2所述的方法,其特征在于,所述根据所述目标query在预设时段内的所述搜索日志集中的日志频率特征,确定所述目标query的搜索日志生成概率包括:
将所述目标query拆分为多个目标N元组,其中,所述N元组中包含多个连续的词汇;
根据预设的第二字典,确定每个目标N元组针对所述预设时段内的搜索日志集出现的日志频率特征,其中,所述第二字典中包含所述搜索日志集下第二N元组和第二频率特征之间的对应关系;
根据所述目标query的每个日志频率特征,生成所述搜索日志生成概率。
6.根据权利要求5所述的方法,其特征在于,根据预设的第二字典确定每个目标N元组针对所述预设时段内的搜索日志集出现的日志频率特征之前,所述方法还包括:
获取多个第二N元组,其中,所述第二N元组是通过所述预设时段内的搜索日志集中的样本query记录得到的,所述第二N元组包括所述样本query的N个连续的词汇;
获取所述搜索日志集中包含所述第二N元组的样本query记录的样本query数量;
根据所述样本query数量和所述搜索日志集中的搜索词汇总数,确定所述样本N元组的第二频率特征;
根据所述第二N元组和所述第二频率特征之间的对应关系构建所述第二字典。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京爱奇艺科技有限公司,未经北京爱奇艺科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210306752.5/1.html,转载请声明来源钻瓜专利网。