[发明专利]一种基于强化双通道序列学习的对话回复生成方法及系统有效
申请号: | 201810539095.2 | 申请日: | 2018-05-30 |
公开(公告)号: | CN108763504B | 公开(公告)日: | 2020-07-24 |
发明(设计)人: | 陈哲乾;蔡登;赵洲;何晓飞 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/30 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 胡红娟 |
地址: | 310013 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 双通道 序列 学习 对话 回复 生成 方法 系统 | ||
1.一种基于强化双通道序列学习的对话回复生成方法,其特征在于,包括以下步骤:
(1)采用深度循环神经网络和注意力机制相结合的方式进行上下文信息建模,获取上下文语义向量;所述上下文语义向量的计算公式为:
其中,Cu表示上下文语义向量,aj,t表示第j个单词受到第t个隐含状态影响的注意力权重,M为上下文出现的所有单词个数,wj为上下文中出现第j个单词的词向量表示,aj,t计算公式为:
其中,ht为第t个当前单词的隐含状态表示,zj为第j个单词在上下文语境中的语义表示,zj的计算公式为:
zj=tanh(Wm-1zj-1+Wm+1zj+1+bm)
其中,zj-1和zj+1为前个单词和后个单词隐含表示,Wm-1,Wm+1,bm是训练得到的参数,tanh是正切激活函数;
(2)利用编码器将当前对话和上下文语义向量结合学习,得到当前对话向量以及编码器向量;所述的编码器向量计算公式为:
其中,Cx为初始编码器得到的上下文语义表示,αi代表初始解码器受到上下文语境Cu和当前单词学习到的隐含状态的注意力权重,为学习的参数,tanh为正切激活函数,控制注意力权重的范围;
(3)将上下文语义向量和当前对话向量输入解码器,得到第一通道对话回复草稿以及解码器向量;所述第一通道对话回复草稿生成的公式为:
其中,hi是通过深度循环神经网络学习到对话的原始隐含状态,Cu为对话的上下文信息,表示第一通道解码器最终生成的第i个单词隐含信息,s*表示一系列组合而成的完整表示;pθ表示模型参数θ下的条件概率;
通过softmax函数,最终的每个生成隐含信息用来从多模态信息中采样得到由隐含函数决定的第一通道生成的单词;
所述的解码器向量计算公式为:
其中,βi表示上下文信息与第一通道生成的第i个单词之间的注意力权重,表示第二通道生成的上下文语义信息,为草稿经过润饰后的第二个上下文理解版本,为学习的参数,tanh为正切激活函数;
(4)将编码器向量与解码器向量以及第一通道对话回复草稿输入润饰器进行润饰,生成第二通道经过润饰的对话回复;所述第二通道经过润饰的对话回复计算公式为:
其中,st为最终生成经过润饰后的第t个单词,表示第二通道解码器最终生成的第t个单词隐含信息,y表示一系列组合而成的完整表示;表示第二通道生成的上下文语义信息;
通过softmax函数,最终的每个生成隐含信息从多模态信息中采样得到,st由隐含函数决定的最终生成单词;
(5)利用强化学习算法优化目标函数;具体步骤为:
(5-1)训练过程中,输入要学习的句子并得到新生成的采样句子,从而得到在具体评判标准下的训练奖励值;
(5-2)测试过程中,输入要测试的对话以及预测出的句子,得到在具体评判标准下的测试奖励值;
(5-3)设计目标函数,基于训练奖励值和测试奖励值,通过计算策略梯度,采用蒙特卡洛采样法优化最终目标;所述计算策略梯度的公式为:
其中,为损失函数的梯度下降表示,表示每个最终生成的单词与真实单词之间的误差累积期望值,r(ws)为训练奖励值,r(wt)代表测试奖励值,pθ(ws)为单词的采样分布概率;
(6)模型训练完毕,生成对话回复并输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810539095.2/1.html,转载请声明来源钻瓜专利网。