[发明专利]对话模型的训练方法、训练装置、对话方法及对话系统有效
申请号: | 201711077109.5 | 申请日: | 2017-11-06 |
公开(公告)号: | CN107766559B | 公开(公告)日: | 2019-12-13 |
发明(设计)人: | 戴文渊;杨强;陈雨强;李可;邢少敏 | 申请(专利权)人: | 第四范式(北京)技术有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/35;G06K9/62 |
代理公司: | 11452 北京展翼知识产权代理事务所(特殊普通合伙) | 代理人: | 屠长存 |
地址: | 100085 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 对话 模型 训练 方法 装置 系统 | ||
1.一种对话模型的训练方法,包括:
总误差构建步骤,构建同时包含自然语言理解模型的第一误差和策略生成模型的第二误差的总误差函数;
联合训练步骤,以使所述总误差函数减小为目标,使用语料样本对所述自然语言理解模型和所述策略生成模型进行联合训练,其中,所述自然语言理解模型的输入为对话语句,输出为对所述对话语句进行解析得到的内部表示,所述策略生成模型的输入至少包括所述自然语言理解模型的输出,所述策略生成模型的输出为针对所述对话语句作出的动作,所述动作用于表征对所述对话语句作出的回复的内部表示。
2.根据权利要求1所述的训练方法,其中,所述自然语言理解模型为序列标注模型,
所述序列标注模型的输入为所述对话语句的词序列,
所述序列标注模型的输出为所述词序列对应的槽位和所述词序列表示的意图信息。
3.根据权利要求2所述的训练方法,其中,所述序列标注模型包括:底层LSTM和上层LSTM,
所述底层LSTM的输入为所述词序列中按顺序依次输入的各个词,所述底层LSTM用于基于对上一次输入的词进行处理后得到的隐藏层状态向量对本次输入的词进行处理,以得到本次输入的词的隐藏层状态向量,将得到的本次输入的词的隐藏层状态向量传递给所述上层LSTM,并且将对最后一个输入的词进行处理后得到的隐藏层状态向量输入到第一分类器,以得到所述词序列的意图信息;
所述上层LSTM用于基于对接收到的上一次输入的词的隐藏层状态向量进行处理后得到的输出,对接收到的本次输入的词的隐藏层状态向量进行处理,并将处理后得到的输出输入到第二分类器,以得到所述词序列中的每个词对应的槽位。
4.根据权利要求2所述的训练方法,其中,所述自然语言理解模型的第一误差包括:槽填充误差和意图识别误差,
所述槽填充误差与所述语料样本的规模、针对所述语料样本中每个训练样本使用所述自然语言理解模型得到的槽位和标准槽位之间的误差相关,
所述意图识别误差与所述语料样本的规模、针对所述语料样本中每个训练样本使用所述自然语言理解模型得到的意图信息和标准意图信息之间的误差相关。
5.根据权利要求4所述的训练方法,其中,
所述意图识别误差为并且/或者
所述槽填充误差为
其中,Lintent表示意图识别误差,D表示语料样本的规模,i为训练样本的序号,是针对第i个训练样本使用所述自然语言理解模型得到的意图信息,y(i)是第i个训练样本的标准意图信息,表示针对第i个训练样本使用自然语言理解模型得到的意图信息和标准意图信息之间的误差,
Ltag表示槽填充误差,Ti表示第i个训练样本中的词序列所包含的词个数,t表示词序列中第t个词,是针对第i个训练样本中的词序列中第t个词使用所述自然语言理解模型得到的槽位,zt(i)是第i个训练样本中的词序列中第t个词的标准槽位,表示针对第i个训练样本中的词序列中第t个词使用所述自然语言理解模型得到的槽位和标准槽位之间的误差。
6.根据权利要求1所述的训练方法,其中,针对当前轮次的对话语句,所述策略生成模型的输入包括:
所述自然语言理解模型针对当前轮次的对话语句的输出;和
所述策略生成模型针对上一轮次的对话语句输出的动作和/或当前轮次信息。
7.根据权利要求1所述的训练方法,其中,所述策略生成模型为马尔科夫决策模型,
所述策略生成模型以使得输出的动作得到的回报值尽可能多为目标,求取针对所述对话语句作出的动作,其中,所述回报值包括针对当前系统状态采取动作得到的立即回报和长期回报。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711077109.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种暖手套
- 下一篇:一种安装在衣物中的穿戴定位通讯装置