[发明专利]文本匹配方法、装置、存储介质及计算机设备在审

专利信息
申请号: 202111152505.6 申请日: 2021-09-29
公开(公告)号: CN113886544A 公开(公告)日: 2022-01-04
发明(设计)人: 王绥学;黎洛晨 申请(专利权)人: 唯品会(广州)软件有限公司
主分类号: G06F16/332 分类号: G06F16/332;G06F16/33;G06F40/35;G06F40/295;G06F40/216;G06K9/62;G06N3/04
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 刘思言
地址: 510000 广东省广州市*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 匹配 方法 装置 存储 介质 计算机 设备
【说明书】:

发明提供的文本匹配方法、装置、存储介质及计算机设备,在将目标文本与待匹配文本集中的各个待匹配文本进行相似度匹配时,首先获取与目标文本对应的第一句向量以及文本类别,然后获取与待匹配文本集中的各个待匹配文本对应的第二句向量,根据第一句向量和第二句向量确定每个待匹配文本的相似度匹配结果,接着,对于每个待匹配文本的相似度匹配结果,可以通过目标文本的文本类别对其进行优化,示例如,对于业务类文本和非业务类文本的相似度匹配结果的优化方式可以不同,因而采用本申请方案可以支持降低非业务类文本对最终匹配结果的影响,从而能够更加准确便捷地帮助用户解决业务上的问题。

技术领域

本发明涉及自然语言处理技术领域,尤其涉及一种文本匹配方法、装置、存储介质及计算机设备。

背景技术

文本匹配是自然语言处理领域中常见的应用场景,大量的NLP(神经语言程序学)任务都是以文本匹配为出发点,例如信息检索、机器翻译、问答系统等。

现有的基于FAQ知识库的问答系统,大多使用文本相似度匹配的方法,通过将用户输入的文本与FAQ知识库中的各个相似文本进行相似度匹配,并给出相似度匹配分数,接着对各个相似文本的相似度匹配分数进行重排序和卡阈值后输出最终的匹配结果。

然而,仅通过相似度匹配分数以及卡阈值的方式对用户输入的文本进行文本匹配,会将一些非业务类的无效文本,如“什么意思”、“怎么回事”、“不是吧”、“麻烦”等,与FAQ知识库中的相似文本进行相似度匹配,通过该文本匹配结果确定的答案并不能解决用户在业务上出现的问题,使得问答系统的便捷性和准确性较低。

发明内容

本发明的目的旨在至少能解决上述的技术缺陷之一,特别是现有技术中问答系统的便捷性和准确性较低的技术缺陷。

本发明提供了一种文本匹配方法,所述方法包括:

获取目标文本,以及与所述目标文本对应的待匹配文本集;

确定与所述目标文本对应的第一句向量和文本类别,以及与所述待匹配文本集中的各个待匹配文本对应的第二句向量;

将所述目标文本对应的第一句向量分别与每个待匹配文本对应的第二句向量进行相似度匹配,得到每个待匹配文本的相似度匹配结果;

基于所述目标文本的文本类别对各个待匹配文本的相似度匹配结果进行优化,并基于优化后的相似度匹配结果确定所述待匹配文本集中的目标匹配文本。

可选地,所述获取与所述目标文本对应的待匹配文本集的步骤,包括:

对所述目标文本进行分词,得到至少一个词组;

在FAQ知识库中对所述词组进行检索,得到多个与所述词组对应的待匹配文本,形成待匹配文本集;其中,所述FAQ知识库中预先建立有与多个待匹配文本对应的索引结构。

可选地,所述确定与所述目标文本对应的第一句向量和文本类别的步骤,包括:

将所述目标文本输入至文本分类模型中,得到所述文本分类模型输出的与所述目标文本对应的第一句向量和文本类别;

其中,所述文本分类模型为,以FAQ知识库中的不同文本类别对应的多个待匹配文本为训练样本,以每个待匹配文本对应的文本类别为样本标签训练得到的。

可选地,所述确定与所述待匹配文本集中的各个待匹配文本对应的第二句向量的步骤,包括:

在缓存中分别查找与所述待匹配文本集中的各个待匹配文本对应的第二句向量;

其中,所述缓存中预先存储有所述FAQ知识库中的所有待匹配文本,以及通过所述文本分类模型得到的与每个待匹配文本对应的第二句向量。

可选地,所述基于所述目标文本的文本类别对各个待匹配文本的相似度匹配结果进行优化的步骤,包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于唯品会(广州)软件有限公司,未经唯品会(广州)软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111152505.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top