[发明专利]人机对话方法、装置、设备及存储介质有效
申请号: | 202010972516.8 | 申请日: | 2020-09-16 |
公开(公告)号: | CN112100354B | 公开(公告)日: | 2023-07-25 |
发明(设计)人: | 符文君 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/216;G06F40/30;G10L15/26;G06F16/35;G06F16/36 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 丁芸;马敬 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 人机对话 方法 装置 设备 存储 介质 | ||
本发明实施例提供了一种人机对话方法、装置、设备及存储介质,获取待回复的输入数据以及历史对话数据;将所述待回复的输入数据和所述历史对话数据,输入预先训练得到的多语言编码模型,得到所述待回复的输入数据的第一特征和所述历史对话数据的第二特征;其中,所述多语言编码模型为利用样本源语言数据和多语言翻译所述样本源语言数据得到的样本目标语言数据,样本源语言的多轮对话数据以及样本源语言的问答数据,进行多任务训练得到的模型;基于所述第一特征和所述第二特征,获取与所述待回复的输入数据匹配的回复数据。本方案可以提高在低资源语料环境下,跨语言的人机对话的回复准确度。
技术领域
本发明涉及人机对话技术领域,特别是涉及一种人机对话方法、装置、设备及存储介质。
背景技术
对话语料库是实现人机对话的重要资源。例如,对话语料库可以作为用于人机对话中输入数据的识别模型的训练样本,还可以作为输出数据的数据库。在具体应用中,可以利用不同的对话语料库实现不同表述语言和对话轮数的人机对话。举例而言,可以利用中文问答语料库实现中文表述、且仅进行一轮问答的人机对话;可以利用英文多轮对话语料库,实现英文表述、且在上一轮问答的基础上,进行下一轮问答的多轮人机对话等等。
发明人在实现本发明的过程中发现,随着用户的多样化和人机对话向自然语言发展的需求,人机对话不再局限于单语言单轮对话,而是以多种语言表述的跨语言多轮对话。例如,某一用户在上一轮对话中询问“推荐一下孙俪的电视剧”,系统给出了相应的回复数据为孙俪的作品,然后用户再次询问“她husband有什么推荐的作品吗”。
但是,由于跨语言多轮对话的对话数据收集较为困难,需要花费大量的人力物力,成本相对昂贵,因此,跨语言多轮对话语料库属于低资源语料。对此,如果直接将单语言单轮对话的人机对话用于实现跨语言多轮对话,会仅针对单轮输入数据“她husband有什么推荐的作品吗”检索答案作为回复数据,回复答案无法准确匹配上孙俪丈夫的作品;并且,无法识别“husband”会造成对单轮输入数据“她husband有什么推荐的作品吗”的识别不准确,进一步降低回复数据的准确度。或者,如果直接将单语言多轮对话的人机对话用于实现跨语言多轮对话,会导致无法识别“husband”造成对单轮输入数据“她husband有什么推荐的作品吗”的识别不准确,降低回复数据的准确度。
可见,如何实现在低资源语料环境下,跨语言的多轮人机对话的回复准确度,是亟待解决的问题。
发明内容
本发明实施例的目的在于提供一种人机对话方法、装置、设备及存储介质,以实现提高在低资源语料环境下,跨语言的多轮人机对话的回复准确度的效果。具体技术方案如下:
第一方面,本发明实施例提供了一种人机对话方法,所述方法包括:
获取待回复的输入数据以及历史对话数据;其中,所述历史对话数据为产生所述待回复的输入数据的多轮对话中,对话时间在所述待回复的输入数据之前的对话数据;
将所述待回复的输入数据和所述历史对话数据,输入预先训练得到的多语言编码模型,得到所述待回复的输入数据的第一特征和所述历史对话数据的第二特征;其中,所述多语言编码模型为利用样本源语言数据和多语言翻译所述样本源语言数据得到的样本目标语言数据,样本源语言的多轮对话数据以及样本源语言的问答数据,进行多任务训练得到的模型;所述多任务训练包括:用于预测多语言数据翻译结果的任务的训练,用于预测多轮对话数据中回复的任务的训练以及用于预测问答数据中答案的任务的训练;
基于所述第一特征和所述第二特征,获取与所述待回复的输入数据匹配的回复数据。
第二方面,本发明实施例提供了一种人机对话装置,所述装置包括:
数据获取模块,用于获取待回复的输入数据以及历史对话数据;其中,所述历史对话数据为产生所述待回复的输入数据的多轮对话中,对话时间在所述待回复的输入数据之前的对话数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010972516.8/2.html,转载请声明来源钻瓜专利网。