[发明专利]搜索场景下的文本匹配方法、系统、设备及存储介质在审

专利信息
申请号: 202210121887.4 申请日: 2022-02-09
公开(公告)号: CN114416930A 公开(公告)日: 2022-04-29
发明(设计)人: 陈辰;赵华;鞠剑勋;李健 申请(专利权)人: 上海携旅信息技术有限公司
主分类号: G06F16/33 分类号: G06F16/33;G06F16/35;G06F40/289;G06K9/62;G06N3/04;G06N3/08;G06N5/04
代理公司: 上海隆天律师事务所 31282 代理人: 钟宗
地址: 201803 上海市嘉*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 搜索 场景 文本 匹配 方法 系统 设备 存储 介质
【说明书】:

发明提供了一种搜索场景下的文本匹配方法、系统、设备及存储介质,所述方法包括步骤:构建基础训练集,以及基于RoBERTa预训练模型和MLP多层感知机模型,构建文本匹配模型;利用所述RoBERTa预训练模型的训练网络参数,提取所述基础训练集的特征,以及利用所述MLP多层感知机模型对所述特征进行分类,完成对所述文本匹配模型的训练;基于所述文本匹配模型中的RoBERTa预训练模型分别对搜索词和候选词进行向量转换,得到搜索词向量和候选词向量;基于所述文本匹配模型中的MLP多层感知机模型、所述搜索词向量和候选词向量,获得文本匹配结果;本申请利于提高短文本和候选的长文本匹配的准确度。

技术领域

本发明涉及文本匹配技术领域,具体地说,涉及一种搜索场景下的文本匹配方法、系统、设备及存储介质。

背景技术

文本匹配是自然语言处理中的一个重要任务,通常以文本相似度计算和文本相关性计算的形式出现,在搜索引擎、智能问答、知识检索、信息流推荐等应用系统中起核心支撑作用。一般的,文本匹配任务的目标是给定一个搜索项和一些候选的文档,从这些文档中找出与搜索词最匹配的一个文档或者按照匹配度对文档进行排序。

在搜索场景下,一般先通过检索方法召回相关项,再对这些相关内容进行重排序,关键词在其中起到至关重要的作用。而搜索与召回的排序中,文本的匹配相关性是一个重要维度,因此判断两个文本的语义匹配的关系与匹配深度是一个主要的研究问题。

传统的文本匹配技术有VSM、TF-IDF、BM25、SimHash等算法,TF-IDF、BM25是词项层面的文本匹配;LSA、LDA等主题模型是语义层面的文本匹配。文本匹配任务也可看成推理任务,即判断文本A与文本B是否构成语义上的推理或者蕴含关系。给定一个描述前提的句子A和一个描述假设的句子B,若句子A描述的前提下,若句子B为真,那么就说文本A蕴含了B,或者说A可以推理出B;若B为假,就说文本A与B互相矛盾;若无法根据A得出B是真还是假,则说A与B互相独立,如果忽略第三种互相独立的状态,则可以转化为文本A和文本B的匹配状态。

基于词汇重合度的匹配算法有很大的局限性,比如“苹果”在不同的语境下表示不同的东西,可以是水果,也可以指代的是一家科技公司。对于文本匹配任务,不能只考虑字面匹配层面,还需要语义层面的匹配。

并且当前的文本匹配方法,通常是单一内容的匹配,未考虑到待匹配对象与文本领域密切相关。对于搜索场景,文本呈现搜索词较短,召回产品的标题和描述语句较长的特点,且描述较为复杂,大量的标注样本难以获取。

发明内容

针对现有技术中的问题,本发明的目的在于提供一种搜索场景下的文本匹配方法、系统、设备及存储介质,利于提高短文本和候选的长文本匹配的准确度。

为实现上述目的,本发明提供了一种搜索场景下的文本匹配方法,所述方法包括以下步骤:

S110,构建基础训练集,以及基于RoBERTa预训练模型和MLP多层感知机模型,构建文本匹配模型;

S120,利用所述RoBERTa预训练模型的训练网络参数,提取所述基础训练集的特征,以及利用所述MLP多层感知机模型对所述特征进行分类,完成对所述文本匹配模型的训练;

S130,基于所述文本匹配模型中的RoBERTa预训练模型分别对搜索词和候选词进行向量转换,得到搜索词向量和候选词向量;

S140,基于所述文本匹配模型中的MLP多层感知机模型、所述搜索词向量和候选词向量,获得文本匹配结果。

可选地,步骤S110包括:

获取历史搜索词、所述历史搜索词召回的候选词的标题及所述候选词的关联文本数据;

获取所述历史搜索词对应的标签数据,所述标签数据用于表征所述历史搜索词是否与候选词的标题及关联文本数据匹配;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海携旅信息技术有限公司,未经上海携旅信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210121887.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top