[发明专利]一种构建知识库的方法及系统在审
申请号: | 202110459643.2 | 申请日: | 2021-04-27 |
公开(公告)号: | CN113076412A | 公开(公告)日: | 2021-07-06 |
发明(设计)人: | 王臻杰;张雷妮;张奕宁;欧歆;于然;洪婷婷;卓全娇;张文新 | 申请(专利权)人: | 中国建设银行股份有限公司深圳市分行 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 周初冬 |
地址: | 518038 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 构建 知识库 方法 系统 | ||
本发明提供了一种构建知识库的方法及系统,对目标客户与人工客服之间的历史对话记录进行预处理,得到待处理对话记录;将待处理对话记录划分为一轮及以上的问答对话记录;对待处理对话记录中的客户消息进行归类,将待处理对话记录中的客户消息归类为至少一种意图;针对每种意图,从意图对应的客户消息对应的问答对话记录中,确定作为意图的回答消息的人工客服消息;利用每种意图和对应的回答消息,构建知识库。本方案中,将目标客户与人工客服之间的对话记录中的客户消息归类成至少一种意图,并从问答对话记录中确定每种意图对应的回答消息,利用每种意图和对应的回答消息构建知识库,不需要以人工的方式构建知识库,减少构建时间和提高构建效率。
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种构建知识库的方法及系统。
背景技术
随着自然语言处理技术的发展,使用自然语言处理技术的应用也越来越多,比如智能客服、智能外呼和人工客服辅助等应用,而前述应用的使用均需要基于知识库。
目前构建知识库的方式为:由人工收集大量数据,并由人工对所收集的数据进行整理后构建知识库。但是,由于数据量较大,人工收集数据和整理数据需要耗费大量的时间,构建知识库的时间较长和效率较低。
发明内容
有鉴于此,本发明实施例提供一种构建知识库的方法及系统,以解决现有构建知识库的方式存在的构建时间长和构建效率低等问题。
为实现上述目的,本发明实施例提供如下技术方案:
本发明实施例第一方面公开一种构建知识库的方法,所述方法包括:
对目标客户与人工客服之间的历史对话记录进行预处理,得到待处理对话记录,所述历史对话记录由所述目标客户对应的客户消息和所述人工客服对应的人工客服消息构成;
将所述待处理对话记录划分为一轮及以上的问答对话记录,每轮所述问答对话记录由具有问答关系的所述待处理对话记录中的客户消息和人工客服消息构成;
对所述待处理对话记录中的客户消息进行归类,将所述待处理对话记录中的客户消息归类为至少一种意图;
针对每一种意图,从所述意图对应的客户消息所对应的所述问答对话记录中,确定作为所述意图的回答消息的人工客服消息;
利用每种所述意图和与其对应的所述回答消息,构建知识库。
优选的,所述对所述待处理对话记录中的客户消息进行归类,将所述待处理对话记录中的客户消息归类为至少一种意图,包括:
将所述待处理对话记录中的客户消息输入预先训练得到的深度学习模型,得到所述待处理对话记录的客户消息对应的句向量;
根据所述待处理对话记录的客户消息对应的句向量,计算所述待处理对话记录的客户消息之间的相似度;
利用所述相似度,将所述待处理对话记录的客户消息归类为至少一种意图。
优选的,所述针对每一种意图,从所述意图对应的客户消息所对应的所述问答对话记录中,确定作为所述意图的回答消息的人工客服消息,包括:
针对每一种意图,从所述意图对应的客户消息所对应的所述问答对话记录中,若仅确定得到唯一可作为所述意图的回答消息的人工客服消息,将其作为所述意图的回答消息,若确定得到不同可作为所述意图的回答消息的人工客服消息,选择符合预设规则的人工客服消息作为所述意图的回答消息。
优选的,所述对目标客户与人工客服之间的历史对话记录进行预处理,得到待处理对话记录,包括:
若目标客户与人工客服之间的历史对话记录中包括音频数据,利用自动语音识别ASR,将所述音频数据转化为文本数据,所述音频数据为消息类型为音频的客户消息和/或人工客服消息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国建设银行股份有限公司深圳市分行,未经中国建设银行股份有限公司深圳市分行许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110459643.2/2.html,转载请声明来源钻瓜专利网。