[发明专利]预训练语言模型的方法和装置在审
申请号: | 202011009914.6 | 申请日: | 2020-09-23 |
公开(公告)号: | CN112084317A | 公开(公告)日: | 2020-12-15 |
发明(设计)人: | 王福东 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/35 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 孙欣欣;周良玉 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练 语言 模型 方法 装置 | ||
本说明书实施例提供一种预训练语言模型的方法和装置,方法包括:获取历史对话记录中的第一角色的第一语句,以及第二角色的第二语句;历史对话记录包括多轮对话中各轮对话的语句;将第一语句和第二语句拼接成第一样本;将第一样本中预设比例的字进行遮蔽,得到第二样本;对第二样本中任意一个字的字嵌入向量、字类型嵌入向量、位置嵌入向量和附加嵌入向量进行叠加,得到该字的初始字表达向量;将第二样本中各个字的初始字表达向量输入语言模型,基于包括第一任务在内的至少一项预训练任务对语言模型进行预训练,第一任务用于预测第二样本中被遮蔽的字。能够在预训练语言模型后,使得该语言模型更适用于对话领域的语言表征。
技术领域
本说明书一个或多个实施例涉及计算机领域,尤其涉及预训练语言模型的方法和装置。
背景技术
随着人工智能的发展,出现了采用机器人代替人工与用户进行对话的方式,这种对话常常需要进行多轮,简称多轮对话。在机器人与用户的多轮对话过程中,通过意图识别模型识别用户的语句所表达的意图,来针对该意图给出相应的机器人应答语句,通过这种不断交互的方式来完成既定的业务目标,例如,解答用户问题,或者促使用户进行预定用户行为。
意图识别模型是一种分类模型,以语言模型得到的语言表征为基础,确定用户的语句所表达的意图。其中,现有的语言模型是在公开的百科语料上训练的通用的模型,无法很好的表征对话领域的语句,相应地,意图识别模型无法准确的识别用户的语句所表达的意图,进而无法完成既定的业务目标。
因此,希望能有改进的方案,能够在预训练语言模型后,使得该语言模型更适用于对话领域的语言表征。
发明内容
本说明书一个或多个实施例描述了一种预训练语言模型的方法和装置,能够在预训练语言模型后,使得该语言模型更适用于对话领域的语言表征。
第一方面,提供了一种预训练语言模型的方法,所述语言模型用于对话领域中的语言表征,方法包括:
获取对话领域的历史对话记录中的第一角色的第一语句,以及所述历史对话记录中的第二角色的第二语句;其中,所述历史对话记录包括所述第一角色和所述第二角色的多轮对话中各轮对话的语句;
将所述第一语句和所述第二语句拼接成第一样本;将所述第一样本中预设比例的字用预设字进行遮蔽,得到第二样本;
对所述第二样本中任意一个字的字嵌入向量、该字的字类型嵌入向量、该字的位置嵌入向量和该字对应的附加嵌入向量进行叠加,得到该字的初始字表达向量;所述附加嵌入向量包括该字对应的语句所属轮次的轮次嵌入向量、该字对应的语句所属角色的角色嵌入向量、该字对应的拼音的拼音嵌入向量中的至少一种;
将所述第二样本中各个字的初始字表达向量输入所述语言模型,基于包括第一任务在内的至少一项预训练任务对所述语言模型进行预训练,所述第一任务用于预测所述第二样本中被遮蔽的字。
在一种可能的实施方式中,所述第二样本中被遮蔽的字作为样本标签,用于确定所述第一任务的预测损失。
在一种可能的实施方式中,所述预训练任务还包括第二任务,所述第二任务用于预测所述第一语句和所述第二语句是否为顺次相连的两个语句。
进一步地,所述第一样本对应于所述第二任务的正样本,所述第一语句和所述第二语句为顺次相连的两个语句;或者,所述第一样本对应于所述第二任务的负样本,所述第一语句和所述第二语句不为顺次相连的两个语句。
在一种可能的实施方式中,所述预训练任务还包括第三任务,所述第三任务用于预测所述第二样本中被遮蔽的字的拼音。
进一步地,所述第二样本中被遮蔽的字的拼音作为样本标签,用于确定所述第三任务的预测损失。
在一种可能的实施方式中,所述附加嵌入向量包括该字对应的语句所属角色的角色嵌入向量、该字对应的拼音的拼音嵌入向量中的至少一种;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011009914.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:图神经网络的训练方法及装置
- 下一篇:一种精确控温的配水阀及其相关组件