[发明专利]搜索场景下的文本匹配方法、系统、设备及存储介质在审
申请号: | 202210121887.4 | 申请日: | 2022-02-09 |
公开(公告)号: | CN114416930A | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | 陈辰;赵华;鞠剑勋;李健 | 申请(专利权)人: | 上海携旅信息技术有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/289;G06K9/62;G06N3/04;G06N3/08;G06N5/04 |
代理公司: | 上海隆天律师事务所 31282 | 代理人: | 钟宗 |
地址: | 201803 上海市嘉*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 搜索 场景 文本 匹配 方法 系统 设备 存储 介质 | ||
1.一种搜索场景下的文本匹配方法,其特征在于,包括以下步骤:
S110,构建基础训练集,以及基于RoBERTa预训练模型和MLP多层感知机模型,构建文本匹配模型;
S120,利用所述RoBERTa预训练模型的训练网络参数,提取所述基础训练集的特征,以及利用所述MLP多层感知机模型对所述特征进行分类,完成对所述文本匹配模型的训练;
S130,基于所述文本匹配模型中的RoBERTa预训练模型分别对搜索词和候选词进行向量转换,得到搜索词向量和候选词向量;
S140,基于所述文本匹配模型中的MLP多层感知机模型、所述搜索词向量和候选词向量,获得文本匹配结果。
2.如权利要求1所述的文本匹配方法,其特征在于,步骤S110包括:
获取历史搜索词、所述历史搜索词召回的候选词的标题及所述候选词的关联文本数据;
获取所述历史搜索词对应的标签数据,所述标签数据用于表征所述历史搜索词是否与候选词的标题及关联文本数据匹配;
基于所述历史搜索词、候选词的标题、关联文本数据及所述标签数据,构建基础训练集。
3.如权利要求1所述的文本匹配方法,其特征在于,步骤S130包括:
对所述搜索词进行同义词扩充;
利用所述文本匹配模型中的RoBERTa预训练模型对扩充后的同义词进行向量转换,得到同义词向量;
步骤S140包括:
基于所述文本匹配模型中的MLP多层感知机模型、所述搜索词向量、所述候选词向量以及同义词向量,获得文本匹配结果。
4.如权利要求1所述的文本匹配方法,其特征在于,步骤S140包括:
基于所述文本匹配模型计算所述搜索词向量和候选词向量之间的句子对分类标志向量值;
所述文本匹配模型中的MLP多层感知机模型基于所述句子对分类标志向量值,按照从大到小的顺序对所述候选词向量对应的候选词进行排序;
将排序最高的N个候选词作为文本匹配结果,进行匹配推荐。
5.如权利要求1所述的文本匹配方法,其特征在于,所述文本匹配模型包括一注意力层,所述注意力层具有一注意力函数,所述注意力函数的公式为:
其中,Q表示候选词的属性向量,K表示搜索词的属性向量,V表示搜索词向量;表示缩放因子。
6.如权利要求5所述的文本匹配方法,其特征在于,所述文本匹配模型包括多头注意力结构,所述多头注意力结构为获得各个计算通道对应的注意力函数值后进行拼接,再经过输出匹配词对应的线性变换矩阵的线性映射之后,得到的结果。
7.如权利要求6所述的文本匹配方法,其特征在于,所述多头注意力结构表示为:
MultiHead(Q,K,V)=Concat(head1,...,headh)WO
其中,headi=Attention(QWiQ,KWiK,VWiV),
h表示计算通道的总数量,headi表示第i个计算通道,其中i为1至h之间的一个整数,WiQ表示第i个计算通道中候选词的属性向量中的分词映射到候选词的属性向量的线性变换矩阵;WiK表示第i个计算通道中搜索词的属性向量中的分词映射到搜索词的属性向量的线性变换矩阵;WiV表示第i个计算通道中搜索词向量中的分词映射到搜索词向量的线性变换矩阵;WO表示匹配的候选词中分词映射为最终输出匹配词的线性变换矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海携旅信息技术有限公司,未经上海携旅信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210121887.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种温敏水凝胶敷料的制备方法及产品
- 下一篇:一种房建移障用树木转移装置