[发明专利]搜索词标准化方法、计算设备和计算机可读存储介质有效
申请号: | 202011374977.1 | 申请日: | 2020-12-01 |
公开(公告)号: | CN112182144B | 公开(公告)日: | 2021-03-05 |
发明(设计)人: | 杨涵;陈广顺 | 申请(专利权)人: | 震坤行网络技术(南京)有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33;G06F40/30;G06F40/284;G06K9/62 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 王茂华 |
地址: | 210000 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 搜索词 标准化 方法 计算 设备 计算机 可读 存储 介质 | ||
本公开提供了一种搜索词标准化方法、计算设备和计算机可读存储介质。该方法包括:基于多个用户的历史数据构建多条训练数据;构建深度语义相似度模型的自注意力模型并利用该多条训练数据对该自注意力模型进行训练;分别确定该搜索词向量和该正样本向量之间的第一相似度以及该搜索词向量和该负样本向量之间的第二相似度;基于该第一相似度和该第二相似度确定相似度损失函数;基于该多条训练数据的搜索词向量、正样本向量和负样本向量确定该深度语义相似度模型的损失函数;基于该自注意力模型和标准产品数据库产生标准产品词库索引;以及基于该自注意力模型和该标准产品词库索引为特定用户输入的目标搜索词确定标准产品名称。
技术领域
本发明概括而言涉及机器学习领域,更具体地,涉及一种搜索词标准化方法、计算设备和计算机可读存储介质。
背景技术
随着网络的不断发展,越来越多的用户通过电商搜索系统满足购物需求。然而,在很多情况下,用户输入的搜索词并不是标准的产品名称,从而使得搜索结果可能包含大量的无用产品信息。尤其是,在工业品销售领域,产品名称通常具有专业的规范化表达。利用常规的搜索方法,当输入不规范的搜索词时,很难准确命中所希望的产品或者召回结果中有大量冗余产品,使得用户体验很差。例如,当用户希望寻找“水管钳”这种产品时,如果其不知道这种规范化产品名称,他可能会输入“用在水管上的钳子”这样的搜索词,通常搜索系统对搜索词进行分词之后可能会召回分别包含“水管”和“钳子”的产品,不能精确匹配用户需求。
发明内容
针对上述问题,本发明提供了一种搜索词标准化方案,通过构建改进的深度语义相似度模型和标准产品词库索引,将用户输入的任何目标搜索词改写为标准搜索词,以获得更加准确的召回结果。
根据本发明的一个方面,提供了一种搜索词标准化方法。该方法包括:基于多个用户的历史数据构建多条训练数据,其中每条训练数据包括搜索词、正样本和负样本;构建深度语义相似度模型的自注意力模型并利用该多条训练数据对该自注意力模型进行训练,其中对于每条训练数据,该自注意力模型输出搜索词向量、正样本向量和负样本向量;基于每组训练数据的搜索词向量、正样本向量和负样本向量分别确定该搜索词向量和该正样本向量之间的第一相似度以及该搜索词向量和该负样本向量之间的第二相似度;基于该第一相似度和该第二相似度确定相似度损失函数;基于该多条训练数据的搜索词向量、正样本向量和负样本向量确定该深度语义相似度模型的损失函数;基于该自注意力模型和标准产品数据库产生标准产品词库索引;以及基于该自注意力模型和该标准产品词库索引为特定用户输入的目标搜索词确定标准产品名称。
在一种实施例中,构建多条训练数据包括:从所述多个用户的历史数据中确定一个搜索词;确定输入所述搜索词的用户对搜索结果执行了所述预定操作的产品数据作为所述正样本,其中所述预定操作包括点击、加入购物车和购买中的至少一种;以及基于所述标准产品数据库确定所述负样本。
在一种实施例中,所述负样本包括以下至少一种:从所述标准产品数据库中随机选择的产品数据;以及在所述标准产品数据库中与所述正样本具有相同父级类目的产品数据。
在一种实施例中,利用所述多条训练数据对所述自注意力模型进行训练包括:对每条训练数据的搜索词、正样本和负样本分别执行字符级词嵌入以分别获得所述搜索词、所述正样本和所述负样本的字符级词嵌入向量;对每条训练数据的搜索词、正样本和负样本分别执行奇偶位置编码以分别获得所述搜索词、所述正样本和所述负样本的位置编码向量;分别对所述搜索词、所述正样本和所述负样本的字符级词嵌入向量和位置编码向量进行合并和归一化以得到所述搜索词、所述正样本和所述负样本的归一化向量;在至少一个自注意力头中的每个自注意力头中,利用自注意力函数对所述搜索词、所述正样本和所述负样本的归一化向量分别执行运算以获得所述搜索词、所述正样本和所述负样本的自注意力向量;在每个自注意力头中,利用非线性激活函数分别对所述搜索词、所述正样本和所述负样本的自注意力向量进行操作以获得所述搜索词、所述正样本和所述负样本的全连接向量;以及对所述至少一个自注意力头中获得的所述搜索词、所述正样本和所述负样本的至少一个全连接向量分别进行平均以获得所述搜索词向量、所述正样本向量和所述负样本向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于震坤行网络技术(南京)有限公司,未经震坤行网络技术(南京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011374977.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可关门压裂滑套及使用方法
- 下一篇:爆堆块度的识别方法、装置及电子设备