[发明专利]问答知识库构建方法及其装置、设备、介质、产品在审
申请号: | 202111638989.5 | 申请日: | 2021-12-29 |
公开(公告)号: | CN114265921A | 公开(公告)日: | 2022-04-01 |
发明(设计)人: | 许强 | 申请(专利权)人: | 广州华多网络科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06F16/35;G06F16/36;G06F40/289;G06F40/35;G06K9/62;G06Q30/00 |
代理公司: | 广州利能知识产权代理事务所(普通合伙) 44673 | 代理人: | 王增鑫 |
地址: | 511442 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 问答 知识库 构建 方法 及其 装置 设备 介质 产品 | ||
1.一种问答知识库构建方法,其特征在于,包括如下步骤:
获取语料数据库,该语料数据库包含多个聊天记录,每个聊天记录包含提问用户提出的问句文本与人工客服用户对应该问句文本而回复的答案文本;
将与问答知识库内问题单元中的问题文本实现语义匹配的所述语料数据库内的问句文本添加至该问题单元中;其中,每个所述的问题单元包括一个或多个所述的问题文本,其中一个问题文本作为标准问题,余者均为该标准问题的相似问题;
将语料数据库中与该问句文本相对应的答案文本配置为问答知识库中所述问题单元相对应的回复单元中的回复文本;
确定每个回复单元中相对于该回复单元内其他回复文本具有相对较高平均相似距离评分的部分回复文本,作为该回复单元最终保留的目标回复文本而完成该问答知识库的构建。
2.根据权利要求1所述的问答知识库构建方法,其特征在于,获取语料数据库,包括如下步骤:
从预设的智能客服系统中调用全量聊天记录;
对所述聊天记录进行数据清洗,将其中由该智能客服系统自动应答的聊天记录删除,仅保留人工客服用户应答的聊天记录,使被保留的每个聊天记录包含提问用户提出的问句文本与人工客服用户对应该问句文本而回复的答案文本;
将被保留的聊天记录存储至语料数据库中。
3.根据权利要求1所述的问答知识库构建方法,其特征在于,将与问答知识库内问题单元中的问题文本实现语义匹配的所述语料数据库内的问句文本添加至该问题单元中,包括如下步骤:
采用预先训练至收敛状态的文本提取第一模型,提取所述问答知识库内各个问题单元中各个问题文本的句向量;
采用所述文本提取第一模型,提取所述语料数据库中各个问句文本的句向量;
计算所述每个问句文本的句向量与每个所述的问题文本的句向量之间的数据距离,确定数据距离相对应的相似距离评分;
为每个问句文本保留一个分值最高的相似距离评分,获得所有问句文本与其最相似的问题文本之间的相似距离评分所构成的评分序列;
筛选出评分序列中相似距离评分超过预设阈值的元素,将每一元素所对应的问句文本作为与该元素所对应的问题文本实现语义匹配的问句文本,将该问句文本添加至该问题文本所在的问题单元中构成相似问题。
4.根据权利要求1所述的问答知识库构建方法,其特征在于,所述文本提取第一模型的训练过程,包括如下步骤:
采用所述问答知识库内一个问题单元中的一个相似问题为正样本,或采用另一问题单元中的相似问题为负样本,输入所述文本提取第一模型提取句向量;
通过分类器将该文本提取第一模型进行二分类映射,获得相应的分类标签;
以所述正样本相似问题相对应的标准问题为监督标签,计算该分类标签的损失值,若该损失值达到预设阈值而达到收敛状态,终止训练;否则,实施梯度更新,采用下一样本实施迭代训练。
5.根据权利要求1所述的问答知识库构建方法,其特征在于,确定每个回复单元中相对于该回复单元内其他回复文本具有相对较高平均相似距离评分的部分回复文本,作为该回复单元最终保留的目标回复文本而完成该问答知识库的构建,包括如下步骤:
采用预先训练至收敛状态的文本提取第二模型,提取出所述问答知识库内每个回复单元中的每个回复文本的句向量;
计算表征每个回复单元中两两回复文本的句向量之间的数值距离的相似距离评分,获得该回复单元中每个回复文本与该回复单元中各个回复文本之间的相似距离评分构成的相似距离评分序列;
根据每个回复单元中的每个回复文本的所述相似距离评分序列,计算每个回复文本相对应的平均相似距离评分;
将每个回复单元中,平均相似距离评分低于预设阈值的回复文本删除,只保留平均相似距离评分高于该预设阈值的回复文本以完成该问答知识库的构建。
6.根据权利要求1至5中任意一项所述的问答知识库构建方法,其特征在于,完成该问答知识库的构建之后,包括如下步骤:
将所述问答知识库接入预设的智能客服系统,由该智能客服系统响应提问用户提出的问句文本,从该问答知识库中确定与该问句文本构成语义相匹配的回复单元,以该回复单元中的回复文本之一应答该问句文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州华多网络科技有限公司,未经广州华多网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111638989.5/1.html,转载请声明来源钻瓜专利网。