[发明专利]语义召回方法、装置、计算机设备及存储介质在审
申请号: | 202010402690.9 | 申请日: | 2020-05-13 |
公开(公告)号: | CN111767375A | 公开(公告)日: | 2020-10-13 |
发明(设计)人: | 骆迅 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 深圳市世联合知识产权代理有限公司 44385 | 代理人: | 汪琳琳 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语义 召回 方法 装置 计算机 设备 存储 介质 | ||
本申请实施例属于人工智能领域,涉及一种语义召回方法,包括在接收到线上查询数据时,基于句向量生成器获取所述线上查询数据对应的线上句向量;获取存储的候选句向量;基于句向量拼接器匹配所述线上句向量和所述候选句向量,得到所述线上句向量和所述候选句向量的相似度;根据所述相似度对所述候选句向量进行降序排序,并返回排序第一的候选句向量对应的候选问题的答案作为正确答案。本申请还提供一种语义召回装置、计算机设备及存储介质。本申请实现了在不改变原有模型的精度下,将传统模型的表征层和输出层拆分开分别作为句向量生成器和拼接器,提高了模型处理的并发量,提高了模型在处理语料资料时的处理效率及问答匹配的准确率。
技术领域
本申请涉及人工智能技术领域,尤其涉及一种语义召回方法、装置、计算机设备及存储介质。
背景技术
目前,语义召回模型被广泛地应用于AI问答系统中,随着科技的发展,越来越多的地方以AI问答系统来代替人工问答,以提高认为处理效率。其中,语义召回模型主要以传统深度学习模型为主,如CNN、LSTM、ESTM模型等。
然而,随着信息时代的高速发展,模型需要处理的语料数据也越来越庞大,精度也越来越高,覆盖面也越来越广。当前的语义召回模型在处理大量语料数据时,并不能高效处理大量的语料数据,其训练速度慢、收敛时间长并且内存占用大,由此导致语义召回模型在处理语料数据时效率低下的技术问题。
发明内容
本申请实施例的目的在于提出一种语义召回方法、装置、计算机设备及存储介质,旨在解决语义召回模型处理语料数据效率低下的技术问题。
为了解决上述技术问题,本申请实施例提供一种语义召回方法,采用了如下所述的技术方案:
一种语义召回方法,包括以下步骤:
在接收到线上查询数据时,基于句向量生成器获取所述线上查询数据对应的线上句向量;
获取存储的候选句向量;
基于句向量拼接器匹配所述线上句向量和所述候选句向量,得到所述线上句向量和所述候选句向量的相似度;
根据所述相似度对所述候选句向量进行降序排序,并返回排序第一的候选句向量对应的候选问题的答案作为正确答案。
进一步的,所述基于句向量生成器获取所述线上查询数据对应的线上句向量的步骤包括:
基于句向量生成器,获取所述线上查询数据的字向量;
对所述字向量进行多层卷积处理,得到所述线上查询数据的线上句向量。
进一步的,所述基于句向量生成器,获取所述线上查询数据的字向量的步骤包括:
基于句向量生成器的标记解析层对所述线上查询数据中的每个字进行ID化处理,得到所述线上查询数据中的每个字对应的ID;
基于所述句向量生成器的嵌入层对所述ID进行特征编码,得到所述线上查询数据中每个字对应的字向量。
进一步的,所述对所述字向量进行多层卷积处理,得到所述线上查询数据的线上句向量的步骤包括:
基于卷积神经网络对所述字向量进行多层卷积处理,得到所述线上查询数据对应的语义特征;
将每次得到的所述语义特征拼接在一起,得到所述线上查询数据的线上句向量。
进一步的,所述获取存储的候选句向量的步骤包括:
获取问题库中存储的候选问题;
基于所述句向量生成器对所述候选问题进行离线计算,得到所述候选问题对应的候选句向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010402690.9/2.html,转载请声明来源钻瓜专利网。