[发明专利]确定查询词权重方法、装置、电子设备及存储介质在审
申请号: | 202210814483.3 | 申请日: | 2022-07-12 |
公开(公告)号: | CN115292382A | 公开(公告)日: | 2022-11-04 |
发明(设计)人: | 王晓珂 | 申请(专利权)人: | 北京创鑫旅程网络技术有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/2457;G06F16/248 |
代理公司: | 北京钲霖知识产权代理有限公司 11722 | 代理人: | 李志新;金惠淑 |
地址: | 100015 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 确定 查询 权重 方法 装置 电子设备 存储 介质 | ||
本公开提供一种确定查询词权重方法、装置、电子设备及存储介质。方法包括:获取查询语句中待确定权重的查询词;对所述查询词进行向量化,得到所述查询词的向量;将所述查询词的向量输入至用于确定查询词权重的模型;基于模型输出结果,确定所述查询词的权重。应用本公开实施例,能够减少样本数据中的噪声带来的影响,可以应用到小型搜索系统中,改善需要大量样本数据的情况,避免了人工标注导致主观因素带来的影响。
技术领域
本公开一般地涉及计算机技术领域,具体涉及一种确定查询词权重方法、装置、电子设备及存储介质。
背景技术
目前,在确定查询词权重方法时,通常通过用户点击行为日志获取目标值,将查询内容转化为向量,训练模型,将查询内容中包括的短查询词转化为向量,从而预测查询词的权重。用户点击行为的样本存在大量噪声,不完全是用户查询词和查询结果之间的相关性,不能作为完全的相关性样本。若要降低样本噪声对于结果的影响,则需要获取较大量的用户量以及搜索使用量,小型垂类系统不具备该条件。若通过人工标注构建样本,可以消除样本的误差,但需要大量人力并且标注结果较为主观,因此需要一种客观且不需要大量样本数据的确定查询词权重方法。
发明内容
为了解决现有技术中存在的上述问题,本公开提供一种确定查询词权重方法、装置、电子设备及存储介质。
本公开的第一方面提供一种确定查询词权重方法,所述方法包括:
获取查询语句中待确定权重的查询词;
对所述查询词进行向量化,得到所述查询词的向量;
将所述查询词的向量输入至用于确定查询词权重的模型;
基于模型输出结果,确定所述查询词的权重。
可选的,所述模型基于偏序对集合预先训练;
所述偏序对集合中的每一偏序对包括同一查询语句中的至少两个查询词,以及所述至少两个查询词在所述查询语句中的相对权重。
可选的,所述偏序对集合采用如下方式确定:
确定语句集合,并确定所述语句集合中的每一语句中所包括的查询词;
标注同一语句中各查询词之间的相对权重,得到同一语句所对应的偏序对子集合;
将所述语句集合中各语句对应的偏序对子集合,组合为偏序对集合。
可选的,标注所述查询词之间的相对权重,得到同一语句所对应的偏序对子集合,包括:
基于同一语句中包括的查询词,确定至少两个偏序对,其中,每一偏序对中包括至少两个查询词,且查询词数量小于所述同一语句中查询词总数量;
对所述至少两个偏序对中各偏序对分别标注查询词之间的相对权重,得到同一语句所对应的偏序对子集合。
可选的,所述模型采用如下方式基于偏序对集合预先训练:
确定偏序对集合,并确定所述偏序对集合中各查询词的向量;
将偏序对集合中各偏序对中查询词的向量作为输入特征,并将偏序对集合中各偏序对中查询词的相对权重,作为输出特征,进行模型训练,得到用于确定查询词权重的模型。
可选的,确定所述语句集合中各语句中所包括查询词的查询词向量,包括:
确定所述语句集合中各语句中所包括查询词的在各语句中的基本属性及与各查询词之间的关系属性、频次属性、在各语句中前后查询词的词性;
将所述查询词的在各语句中的基本属性与各查询词的关系属性、所述频次属性以及所述在各语句中前后查询词的词性中各自包括的子属性的属性值,形成所述查询词的查询词向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京创鑫旅程网络技术有限公司,未经北京创鑫旅程网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210814483.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:隧道缺陷处理方法
- 下一篇:一种无感生命健康体征参数测量仪