[发明专利]人机对话方法、装置、设备及存储介质有效
申请号: | 202010972516.8 | 申请日: | 2020-09-16 |
公开(公告)号: | CN112100354B | 公开(公告)日: | 2023-07-25 |
发明(设计)人: | 符文君 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/216;G06F40/30;G10L15/26;G06F16/35;G06F16/36 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 丁芸;马敬 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 人机对话 方法 装置 设备 存储 介质 | ||
1.一种人机对话方法,其特征在于,所述方法包括:
获取待回复的输入数据以及历史对话数据;其中,所述历史对话数据为产生所述待回复的输入数据的多轮对话中,对话时间在所述待回复的输入数据之前的对话数据;
将所述待回复的输入数据和所述历史对话数据,输入预先训练得到的多语言编码模型,得到所述待回复的输入数据的第一特征和所述历史对话数据的第二特征;其中,所述多语言编码模型为利用样本源语言数据和多语言翻译所述样本源语言数据得到的样本目标语言数据,样本源语言的多轮对话数据以及样本源语言的问答数据,进行多任务训练得到的模型;所述多任务训练包括:用于预测多语言数据翻译结果的任务的训练,用于预测多轮对话数据中回复的任务的训练以及用于预测问答数据中答案的任务的训练;
基于所述第一特征和所述第二特征,获取与所述待回复的输入数据匹配的回复数据;
所述基于所述第一特征和所述第二特征,获取与所述待回复的输入数据匹配的回复数据包括:
获取所述第一特征和所述第二特征所表明的待回复的输入数据的语义数据,并获取符合所获取的语义数据的回复数据,作为与待回复的输入数据匹配的回复数据;
所述多语言编码模型的训练方式包括:
利用所述样本源语言数据和所述多语言翻译所述样本源语言数据得到的所述样本目标语言数据,对所述用于预测跨语言数据翻译结果的任务进行训练,并获取所述用于预测跨语言数据翻译结果的任务的训练完成时的特征提取层,作为第一特征提取层;
将所述第一特征提取层作为所述用于预测多轮对话数据中回复的任务的特征提取层,并利用所述样本源语言的多轮对话数据对所述用于预测多轮对话数据中回复的任务进行训练,并获取训练完成时的特征提取层,作为第二特征提取层;
将所述第二特征提取层作为所述用于预测问答数据中答案的任务的特征提取层,并利用所述样本源语言的问答数据对所述用于预测问答数据中答案的任务进行训练,获取训练完成时的特征提取层,作为所述多语言编码模型。
2.根据权利要求1所述的方法,其特征在于,所述获取所述第一特征和所述第二特征所表明的待回复的输入数据的语义数据,并获取符合所获取的语义数据的回复数据,作为与待回复的输入数据匹配的回复数据,包括:
从预先建立的问答数据库中,查找与所述第一特征之间的相似度满足第一相似度条件的问答数据,作为所述待回复的输入数据的问答数据,以及查找与所述第二特征匹配的问答数据,作为所述历史对话数据的问答数据;
利用所述待回复的输入数据的问答数据和所述历史对话数据的问答数据,获取所述多轮对话的语义数据;其中,所述多轮对话的语义数据用于表明在所述历史对话数据的语义下,所述待回复的输入数据的语义;
获取符合所述待回复的输入数据的语义的回复数据,作为与所述待回复的输入数据匹配的回复数据。
3.根据权利要求2所述的方法,其特征在于,所述利用所述待回复的输入数据的问答数据和所述历史对话数据的问答数据,获取所述多轮对话的语义数据,包括:
将所述待回复的输入数据的问答数据和所述历史对话数据的问答数据输入所述多语言编码模型,得到所述待回复的输入数据的问答数据的特征和所述历史对话数据的问答数据的特征,并将所得到的对应的问答数据的特征作为所述多轮对话的语义数据;
所述获取符合所述待回复的输入数据的语义的回复数据,作为与所述待回复的输入数据匹配的回复数据,包括:
从预先建立的多轮对话数据库中,查找与所述多轮对话的语义数据的相似度满足第二相似度条件的对话,并将所查找的对话中的回复数据,作为候选回复数据;
针对每个候选回复数据,将该候选回复数据输入预先训练得到的多轮对话回复评价模型,得到该候选回复数据的评分;其中,任一候选回复数据的评分用于表明在所述历史对话数据的语义下,该候选回复数据与所述待回复的输入数据之间的匹配度;
从得到的多个候选回复数据中,选择所述评分满足预设的评分条件的候选回复数据,作为与所述待回复的输入数据匹配的回复数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010972516.8/1.html,转载请声明来源钻瓜专利网。