[发明专利]文本对话方法、装置及存储介质在审
申请号: | 202011027353.2 | 申请日: | 2020-09-25 |
公开(公告)号: | CN112036156A | 公开(公告)日: | 2020-12-04 |
发明(设计)人: | 崔志 | 申请(专利权)人: | 北京小米松果电子有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06N3/08;G06F16/332 |
代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 李柯莹 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 对话 方法 装置 存储 介质 | ||
1.一种文本对话方法,其特征在于,所述方法包括:
获取原始文本;
将所述原始文本输入到文本模型中,得到所述文本模型输出的所述原始文本的答复文本,其中,所述文本模型经过无监督语料进行预训练,并通过对话语料进行训练得到的,所述无监督语料中包括相同语言风格的语料,所述对话语料包括询问语料和作为询问语料的标签的答复语料。
2.根据权利要求1所述的方法,其特征在于,所述文本模型训练过程包括:
获取所述无监督语料和所述对话语料;
通过所述无监督语料对文本模型进行无监督预训练;
在所述预训练完成后,通过所述对话语料对文本模型进行训练,直到所述文本模型具有捕捉对话的能力,得到训练完成的文本模型。
3.根据权利要求2所述的方法,其特征在于,所述获取所述无监督语料和所述对话语料,包括:
获取具有相同语言风格的语料,并通过形式参数对所述获取到的语料中的上下句进行分隔,得到所述无监督语料;
获取所述询问语料和作为询问语料的标签的所述答复语料,并通过形式参数对所述询问语料和所述答复语料进行分隔,得到所述对话语料。
4.根据权利要求2所述的方法,其他特征在于,所述对话语料包括训练集以及验证集,所述通过所述对话语料对文本模型进行训练,直到所述文本模型具有捕捉对话的能力,得到训练完成的文本模型,包括:
通过所述训练集对所述文本模型训练预设次数,并通过所述验证集获取每一次训练后的文本模型的交叉熵;
将最小的所述交叉熵对应的文本模型作为所述训练完成的文本模型。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述文本模型为GPT2模型。
6.一种文本对话装置,其特征在于,所述装置包括:
获取模块,被配置成获取原始文本;
执行模块,被配置成将所述原始文本输入到文本模型中,得到所述文本模型输出的所述原始文本的答复文本,其中,所述文本模型经过无监督语料进行预训练,并通过对话语料进行训练得到的,所述无监督语料包括目标风格语料,所述对话语料包括询问语料和作为询问语料的标签的答复语料。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括训练模型,所述训练模型被配置成获取所述无监督语料和所述对话语料;
通过所述无监督语料对文本模型进行无监督预训练;
在所述预训练完成后,通过所述对话语料对文本模型进行训练,直到所述文本模型具有捕捉对话的能力,得到训练完成的文本模型。
8.根据权利要求7所述的装置,其特征在于,所述训练模块被配置成获取具有相同语言风格的语料,并通过形式参数对获取到的语料中的上下句进行分隔,得到所述无监督语料;
获取所述询问语料和作为询问语料的标签的所述答复语料,通过形式参数对所述询问语料和所述答复语料进行分隔,得到所述对话语料。
9.一种文本对话装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取原始文本;
将所述原始文本输入到文本模型中,得到所述文本模型输出的所述原始文本的答复文本,其中,所述文本模型经过无监督语料进行预训练,并通过对话语料进行训练得到的,所述无监督语料包括目标风格语料,所述对话语料包括询问语料和作为询问语料的标签的答复语料。
10.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,该程序指令被处理器执行时实现权利要求1~5中任一项所述的文本对话方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京小米松果电子有限公司,未经北京小米松果电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011027353.2/1.html,转载请声明来源钻瓜专利网。