[发明专利]一种基于向量搜索引擎的知识库问题添加方法及装置在审
申请号: | 202111373119.X | 申请日: | 2021-11-19 |
公开(公告)号: | CN114064874A | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 候雪飞 | 申请(专利权)人: | 浙江百应科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/31;G06F16/33 |
代理公司: | 杭州浙言专利代理事务所(普通合伙) 33370 | 代理人: | 易朝晖 |
地址: | 311121 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 向量 搜索引擎 知识库 问题 添加 方法 装置 | ||
本发明公开了一种基于向量搜索引擎的知识库问题添加方法,所述方法包括:提取知识库各场景下的场景问题,将每一所述场景问题的至少一个相似问句转换为特征向量存入Milvus库中;对所述Milvus库中的每个所述相似问句的特征向量进行存储并建立索引;获取新增问句,将所述新增问句转换为特征向量,并在所述Milvus库中对所述新增问句的特征向量进行相似性检索获得第一相似问句以及相似概率,其中,所述第一相似问句的特征向量与所述新增问句的特征向量的相似概率最高;基于所述相似概率确定是否将所述新增问句添加至所述Milvus库中。
技术领域
本申请涉及知识库领域,尤其涉及一种基于向量搜索引擎的知识库问题添加方法及装置。
背景技术
在智能客服场景中,涉及到用户意图识别,客服根据用户意图做出相应的回答。在知识库中存储了标准问题(意图)和大量的相似问句,基于ALBERT的意图识别模型上线后,AI训练师需要根据线上的识别效果或一些badcase不断调整知识库数据(新增、修改、删除等工作)。针对知识库新增问题,为了减轻AI训练师的工作量以及避免人工过程中的一些失误,可以通过算法来判断哪些数据需要添加,从而辅助训练师更高效的工作。
在现有的智能客服中,巡检发现知识库相关问题后,大多都是人工解决,例如:
问题描述 原因 解决方法 别人忽悠我办理的 缺少知识库 新增问题
标准问题:客户表示钱都被骗走了
已有相似问题:骗子骗光了我的钱
我遇上骗子了
钱全让人拿走了
钱都被骗光了
……
判断问题“别人忽悠我办理的”是否需要添加到知识库,若完全由AI训练师决定,容易导致数据冗余或训练数据缺乏多样性;若采用模型判断的方法,则多采用Word2vec等词向量模型,词向量加权得到句子向量,此类方法只能获得句子浅层语义且耗时长,每次计算需要获取相似问下所有句子的向量,消耗计算资源较大,因此设计一种高效且自动判断是否需要添加问题到知识库的方法是必要的。
发明内容
本申请实施例要解决的技术问题,在于提供一种基于向量搜索引擎的知识库问题添加方法及装置,以解决现有缺少一种高效且自动判断是否需要添加问题到知识库的方法的技术问题。
为实现上述目的,本申请实施例采用下述技术方案:
第一方面,本申请实施例提供一种基于向量搜索引擎的知识库问题添加方法,所述方法包括:
提取知识库各场景下的场景问题,将每一所述场景问题的至少一个相似问句转换为特征向量存入Milvus库中;
对所述Milvus库中的每个所述相似问句的特征向量进行存储并建立索引;
获取新增问句,将所述新增问句转换为特征向量,并在所述Milvus库中对所述新增问句的特征向量进行相似性检索获得第一相似问句以及相似概率,其中,所述第一相似问句的特征向量与所述新增问句的特征向量的相似概率最高;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江百应科技有限公司,未经浙江百应科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111373119.X/2.html,转载请声明来源钻瓜专利网。