[发明专利]搜索词标准化方法、计算设备和计算机可读存储介质有效
申请号: | 202011374977.1 | 申请日: | 2020-12-01 |
公开(公告)号: | CN112182144B | 公开(公告)日: | 2021-03-05 |
发明(设计)人: | 杨涵;陈广顺 | 申请(专利权)人: | 震坤行网络技术(南京)有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33;G06F40/30;G06F40/284;G06K9/62 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 王茂华 |
地址: | 210000 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 搜索词 标准化 方法 计算 设备 计算机 可读 存储 介质 | ||
1.一种搜索词标准化方法,包括:
基于多个用户的历史数据构建多条训练数据,其中每条训练数据包括搜索词、正样本和负样本,其中所述正样本指示在基于所述搜索词的搜索结果中、所述用户执行了预定操作的产品数据,所述负样本指示与所述搜索结果无关的产品数据;
构建深度语义相似度模型的自注意力模型并利用所述多条训练数据对所述自注意力模型进行训练,其中对于每条训练数据,所述自注意力模型输出搜索词向量、正样本向量和负样本向量;
基于所述多条训练数据的搜索词向量、正样本向量和负样本向量确定所述深度语义相似度模型的损失函数;
基于所述自注意力模型和标准产品数据库产生标准产品词库索引;以及
基于所述自注意力模型和所述标准产品词库索引为特定用户输入的目标搜索词确定标准产品名称,
其中利用所述多条训练数据对所述自注意力模型进行训练包括:
对每条训练数据的搜索词、正样本和负样本分别执行字符级词嵌入以分别获得所述搜索词、所述正样本和所述负样本的字符级词嵌入向量;
对每条训练数据的搜索词、正样本和负样本分别执行奇偶位置编码以分别获得所述搜索词、所述正样本和所述负样本的位置编码向量;
分别对所述搜索词、所述正样本和所述负样本的字符级词嵌入向量和位置编码向量进行合并和归一化以得到所述搜索词、所述正样本和所述负样本的归一化向量;
在至少一个自注意力头中的每个自注意力头中,利用自注意力函数对所述搜索词、所述正样本和所述负样本的归一化向量分别执行运算以获得所述搜索词、所述正样本和所述负样本的自注意力向量;
在每个自注意力头中,利用非线性激活函数分别对所述搜索词、所述正样本和所述负样本的自注意力向量进行操作以获得所述搜索词、所述正样本和所述负样本的全连接向量;以及
对所述至少一个自注意力头中获得的所述搜索词、所述正样本和所述负样本的至少一个全连接向量分别进行平均以获得所述搜索词向量、所述正样本向量和所述负样本向量。
2.如权利要求1所述的方法,其中构建多条训练数据包括:
从所述多个用户的历史数据中确定一个搜索词;
确定输入所述搜索词的用户对搜索结果执行了所述预定操作的产品数据作为所述正样本,其中所述预定操作包括点击、加入购物车和购买中的至少一种;以及
基于所述标准产品数据库确定所述负样本。
3.如权利要求2所述的方法,其中所述负样本包括以下至少一种:
从所述标准产品数据库中随机选择的产品数据;以及
在所述标准产品数据库中与所述正样本具有相同父级类目的产品数据。
4.如权利要求1所述的方法,其中确定所述深度语义相似度模型的损失函数包括:
基于每条训练数据的搜索词向量、正样本向量和负样本向量分别确定所述搜索词向量和所述正样本向量之间的第一相似度以及所述搜索词向量和所述负样本向量之间的第二相似度;
基于所述第一相似度和所述第二相似度确定相似度损失函数;
基于所述多条训练数据的搜索词的类目和搜索词向量确定类目分类损失函数;
基于所述相似度损失函数和所述类目分类损失函数确定深度语义相似度模型的损失函数。
5.如权利要求4所述的方法,其中所述相似度损失函数包括三元组损失函数(TripletLoss)。
6.如权利要求1所述的方法,其中产生标准产品词库索引包括:
获取所述标准产品数据库;
将所述标准产品数据库中的每个标准产品名称输入所述自注意力模型以产生所述标准产品名称的名称向量;以及
基于随机超平面的局部敏感哈希算法对所述标准产品数据库中的所有标准产品名称的名称向量进行操作以产生所述标准产品数据库中的所有标准产品名称的名称向量的哈希索引树,
其中在所述哈希索引树中,临近的名称向量的哈希索引也临近。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于震坤行网络技术(南京)有限公司,未经震坤行网络技术(南京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011374977.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可关门压裂滑套及使用方法
- 下一篇:爆堆块度的识别方法、装置及电子设备