[发明专利]一种基于知识选择的对话模型及其训练方法在审
申请号: | 202211023548.9 | 申请日: | 2022-08-25 |
公开(公告)号: | CN115392263A | 公开(公告)日: | 2022-11-25 |
发明(设计)人: | 叶剑;马占宇;刘剑峰;杨旭锐 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F40/35 | 分类号: | G06F40/35;G06N3/04;G06N3/08 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识 选择 对话 模型 及其 训练 方法 | ||
1.一种基于知识选择的对话模型,其特征在于,所述模型包括:
编码模块,其包括文本编码器和知识编码器,所述文本编码器用于对提问者语句进行编码获得提问者语句编码向量,所述知识编码器用于对知识库中的知识进行编码获得知识编码向量;
知识选择模块,用于根据编码模块获得的所述提问者语句编码向量和知识编码向量从知识库中为提问者语句选择知识,所述知识选择模块通过采用强化学习的方式以对话文本及其上下文为输入、为对话文本选择的知识为输出训练获得;
解码模块,用于根据所述知识选择模块选择的知识与所述提问者语句编码向量进行解码生成提问者语句的回复语句。
2.根据权利要求1所述的模型,其特征在于,所述知识选择模块包括知识表示网络、策略网络和知识选择网络,其中:
所述策略网络用于根据当前知识环境状态产生为当前提问者语句选择预判知识的动作信息并反馈给所述知识表示网络;
所述知识表示网络用于根据所述策略网络的反馈的选择知识的动作信息更新提问者语句的上下文信息,并基于更新后的提问者语句的上下文信息与当前知识库信息更新知识环境状态并将其传递给所述策略网络和知识选择网络;
所述知识选择网络根据所述更新后的知识环境状态为当前提问者语句选择最终的知识。
3.根据权利要求1所述的模型,其特征在于,所述编码模块中的文本编码器和知识编码器均为Seq2Seq模型。
4.根据权利要求3所述的模型,其特征在于,所述编码模块中的文本编码器和知识编码器均由BERT网络和GRU网络构成。
5.根据权利要求1所述的模型,其特征在于,所述解码模块为Seq2Seq模型。
6.根据权利要求5所述的模型,其特征在于,所述解码模块由Transformer网络构成。
7.一种训练如权利要求1-6任一所述对话模型的方法,其特征在于,所述方法包括采用包含多轮对话组成的对话序列样本和知识库对对话模型进行多次训练,每轮对话包含提问者语句及其应答语句,每次训练按照对话轮对对话模型进行多轮迭代训练,其中,每轮训练包括如下步骤:
S1、获取当前轮的对话及其上下文、知识库中的知识,并对当前轮对话的提问者语句及上下文进行编码获得嵌入了上下文信息的提问者语句编码向量,以及对知识库中此次训练中直至当前轮还未被选择过的知识进行编码获得当前轮对应的知识编码向量;
S2、基于步骤S1获得的嵌入了上下文信息的提问者语句编码向量、知识编码向量、当前轮对话中提问者语句对应的应答语句在知识库中选择知识,其中,从直至当前轮还未被选择过的知识中为当前轮的提问者语句选择知识;
S3、基于当前提问者语句及其上下文、为当前轮的提问者语句选择的知识进行解码获得当前轮提问者语句的回复语句;
S4、基于预设的价值评价方法根据提问者语句对应的应答语句以及解码生成的回复语句计算价值并更新模型参数。
8.根据权利要求7所述的方法,其特征在于,所述预设的价值评价方法是:
Reward=Acc(target_reward)+Metric(prediction,ground_truth)
其中,Acc表示知识选择的准确率,Metric表示评估生成语句的置信度,prediction表示基于模型生成的提问者语句的预测回复语句,ground_truth表示实际提问者语句的回复语句。
9.根据权利要求7所述的方法,其特征在于,所述方法中将对话模型训练到基于预设的价值评价方法计算的价值不再升高为止。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211023548.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种弹窗控制方法及系统
- 下一篇:消息中间件的性能监控方法和系统