[发明专利]识别噪声query的方法、装置、电子设备和可读存储介质在审

申请号：	202210306752.5	申请日：	2022-03-25
公开（公告）号：	CN114757267A	公开（公告）日：	2022-07-15
发明（设计）人：	王亮	申请（专利权）人：	北京爱奇艺科技有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06F16/33
代理公司：	北京华夏泰和知识产权代理有限公司 11662	代理人：	曾军
地址：	100080 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	识别噪声 query 方法装置电子设备可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供了一种识别噪声query的方法、装置、电子设备和可读存储介质，属于大数据技术领域。所述方法包括：获取目标query，其中，所述目标query用于指示搜索引擎接收到的查询词句；将所述目标query输入特征抽取模块，得到目标query的特征，其中，所述目标query的特征包括模板匹配特征、搜索文档生成概率和搜索日志生成概率，所述搜索文档生成概率用于指示所述目标query在搜索文档集中的稀疏性特征，所述搜索日志生成概率用于指示所述目标query在搜索日志集中的稀疏性特征；将所述目标query的特征输入目标识别模型，得到识别结果，其中，所述识别结果用于指示所述目标query是否为噪声query。本申请提高了目标query识别的覆盖率。

技术领域

本申请涉及大数据领域，尤其涉及一种识别噪声query的方法、装置、电子设备和可读存储介质。

背景技术

搜索引擎经常会收到用户输入的无意义的噪声查询词，即噪声query，噪声query通常是长尾低频query，不会命中搜索结果缓存，甚至会触发二级索引甚至多级索引，导致在线服务压力变大，服务器不稳定，因此服务器需要识别噪声query。

目前识别query识别主要依靠噪声模板完成，噪声模板包括query过长 (例如超过50个字符)；query为重复单字(例如“我我我我我我”)；query 为无单词拉丁字符(例如“asdfghjkl”)，噪声模板特征可以表征query是否为噪声query。

但是仅依靠噪声模板只能是识别少数的部分噪声query，对于复杂的噪声query，仅利用噪声模板是无法有效识别噪声query的，这导致现有技术中噪声query的识别覆盖率低。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本申请提供了一种识别噪声query的方法、装置、电子设备和可读存储介质。

第一方面，本申请提供了一种识别噪声query的方法，所述方法包括：

获取目标query，其中，所述目标query用于指示搜索引擎接收到的查询词句；

将所述目标query输入特征抽取模块，得到目标query的特征，其中，所述目标query的特征包括模板匹配特征、搜索文档生成概率和搜索日志生成概率，所述搜索文档生成概率用于指示所述目标query在搜索文档集中的稀疏性特征，所述搜索日志生成概率用于指示所述目标query在搜索日志集中的稀疏性特征；

将所述目标query的特征输入目标识别模型，得到识别结果，其中，所述识别结果用于指示所述目标query是否为噪声query。

可选地，所述得到目标query的特征包括：

根据预设的噪声模板获取目标query的模板匹配特征；

根据所述目标query的每个目标N元组在所述搜索文档集中的文档频率特征，确定所述目标query的搜索文档生成概率，其中，所述目标N元组包括所述目标query的N个连续的词汇；

根据所述目标query的每个目标N元组在预设时段内的搜索日志集中的日志频率特征，确定所述目标query的搜索日志生成概率。

可选地，所述根据所述目标query在所述搜索文档集中的文档频率特征，确定所述目标query的搜索文档生成概率包括：

将所述目标query拆分为多个目标N元组；

根据预设的第一字典，确定每个目标N元组针对搜索文档集出现的文档频率特征，其中，所述第一字典中包含所述搜索文档集下第一N元组和第一频率特征之间的对应关系；

根据所述目标query的每个文档频率特征，生成所述搜索文档生成概率。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京爱奇艺科技有限公司，未经北京爱奇艺科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210306752.5/2.html，转载请声明来源钻瓜专利网。

上一篇：一种核酸质谱盐离子干扰评价方法
下一篇：视频相似度确定方法、装置、电子设备及存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]识别噪声query的方法、装置、电子设备和可读存储介质在审

专利文献下载