[发明专利]知识库构建方法、设备及存储介质在审
申请号: | 202110975425.4 | 申请日: | 2021-08-24 |
公开(公告)号: | CN113868364A | 公开(公告)日: | 2021-12-31 |
发明(设计)人: | 谢韬;邵长东;高倩 | 申请(专利权)人: | 科沃斯商用机器人有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/332;G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 北京太合九思知识产权代理有限公司 11610 | 代理人: | 刘戈;孙明子 |
地址: | 215104 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 知识库 构建 方法 设备 存储 介质 | ||
1.一种知识库构建方法,其特征在于,包括:
利用第一网络模型对获取到的待匹配问题进行向量化处理,以得到所述待匹配问题对应的问题向量;
将所述问题向量在第一应答知识库中进行向量检索,以得到至少一个候选应答向量;所述第一应答知识库是根据所述第一网络模型对语料进行向量化处理得到的第一语料向量构建的;
输出所述至少一个候选应答向量对应的候选应答数据;
响应于针对所述候选应答数据的交互操作,确定目标应答数据;
根据所述目标应答数据,构建第二应答知识库。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标应答数据,构建第二应答知识库,包括:
利用所述待匹配问题和所述目标应答数据,对所述第一网络模型进行优化训练,以得到第二网络模型;
利用第二网络模型对所述语料进行向量化处理,以得到第二语料向量;
根据所述第二语料向量及所述语料,构建所述第二应答知识库。
3.根据权利要求1所述的方法,其特征在于,所述根据所述目标应答数据,构建第二应答知识库,包括:
利用所述第一网络模型对所述目标应答数据进行向量化处理,以得到所述目标应答数据对应的应答向量;
将所述目标应答数据和所述目标应答数据对应的应答向量添加至所述第一应答知识库,得到所述第二应答知识库。
4.根据权利要求1所述的方法,其特征在于,所述响应于针对所述候选应答数据的交互操作,确定目标应答数据,包括:
响应于针对所述候选应答数据的选择操作,确定被选中的候选应答数据为所述目标应答数据;
或者,
响应于针对所述候选应答数据的修改操作,确定修改后的应答数据为所述目标应答数据。
5.根据权利要求1-4任一项所述的方法,其特征在于,还包括:
获取第一问答对集合;所述第一问答对集合包括多个第一问答对;
根据每个第一问答对中的问题数据和所述多个问答对中其它第一问答对中的应答数据,确定第二问答对集合;
以最小化损失函数为目标,利用所述第一问答对集合和所述第二问答对集合进行模型训练,以得到所述第一网络模型;
其中,所述损失函数是根据模型训练输出的问答对的问题向量和应答向量之间的相关性与所述问答对的实际相关性之间的差异确定的。
6.根据权利要求1-4任一项所述的方法,其特征在于,还包括:
获取第一问答对集合;
滤除所述第一问答对集合中的冗余语句,以得到第三问答对集合;所述第三问答对集合包含多个第三问答对;
根据每个第三问答对中的问题数据和所述多个第三问答对中其它第三问答对中的应答数据,确定第四问答对集合;
以最小化损失函数为目标,利用所述第三问答对集合和所述第四问答对集合进行模型训练,以得到所述第一网络模型;
其中,所述损失函数是根据模型训练输出的问答对的问题向量和应答向量之间的相关性与所述问答对的实际相关性之间的差异确定的。
7.根据权利要求6所述的方法,其特征在于,所述第一问答对集合包括多个第一问答对;
在滤除所述第一问答对集合中的冗余语句之前,所述方法还包括:
根据每个第一问答对中的问题数据和所述多个问答对中其它第一问答对中的应答数据,确定第二问答对集合;
以最小化损失函数为目标,利用所述第一问答对集合和所述第二问答对集合进行模型训练,以得到第三网络模型;
所述利用所述第三问答对集合和所述第四问答对集合进行模型训练,以得到所述第一网络模型,包括:
以最小化损失函数为目标,利用所述第三问答对集合和所述第四问答对集合,对所述第三网络模型进行模型训练,以得到所述第一网络模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科沃斯商用机器人有限公司,未经科沃斯商用机器人有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110975425.4/1.html,转载请声明来源钻瓜专利网。