[发明专利]一种基于transformer架构的对话生成方法有效
申请号: | 202010077900.1 | 申请日: | 2020-02-01 |
公开(公告)号: | CN111274362B | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 蔡贤涛;袁一鸣 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06F40/30 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 许莲英 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 transformer 架构 对话 生成 方法 | ||
1.一种基于transformer架构的对话生成方法,其特征在于,包括如下步骤:
步骤1:将对话上文以及背景知识中的词映射为词嵌入,位置嵌入,分割嵌入,进一步得到词向量化表示;
步骤2:将对话上文以及背景知识的词向量化表示输入到BERT模型,分别得到对话上文以及背景知识对应的语义表示;
步骤3:基于对话上文以及背景知识对应的语义表示,进一步做阅读理解任务,计算背景知识中符合当前语境的概率分布;
步骤4:基于对话上文以及背景知识对应的语义表示以及背景知识中符合当前语境的概率分布,进一步做文本生成任务,通过多头注意力机制结合背景知识中符合当前语境的概率分布得到综合语义向量,根据综合语义向量结合复制机制生成回复;
所述步骤4中具体为:
将步骤1中所述回复Y向量化表示为E(Y),并输入到l层transformer解码器中进行训练,transformer解码器由三个子层构成包括:
第一个子层为掩码多头自注意力层,按照如下公式得到第一个子层的输出:
其中S0,1=E(Y),Sj,1为解码器第一个子层的隐状态,j为第j个解码器;
第二个子层为编码器-解码器多头自注意力层,按照如下公式得到第二个子层的输出:
其中,α是注意力权重,Sj,2为解码器第二个子层的隐状态,j为第j个解码器,C为编码器隐状态;
第三个子层为位置全连接的前馈神经网络,按照如下公式得到transformer解码器的输出:
其中,GLUE为激活函数,Sj,3为解码器第三个子层的隐状态,j为第j个解码器,W,b分别为待训练的权重和偏置;
相邻的两个子层间还包括一个层归一化和残差连接操作;
将transformer解码器输出输入到生成器中,然后计算以下概率及概率分布:
计算回复中的下一个词从对话上文中拷贝的概率分布为:
回复中的下一个词从背景知识中拷贝的概率分布为:
其中,αt,i是注意力权重为第t个解码步骤时第i个词对应的注意力权重;
计算综合拷贝概率分布:
其中,[CLS]X为对话上文整体标记,[CLS]K为知识整体标记,为解码器在第t个解码步骤时第二个子层的隐状态,为编码器在第t个解码步骤时的隐状态,α′t,i为Tiαt,i归一化后的结果;
计算下一个词是生成的概率:
其中,σ为sigmiod函数,W,b分别为待训练的权重和偏置,T为转置操作,为解码器在第t个解码步骤时第二个子层的隐状态,为解码器在第t个解码步骤时第三个子层的隐状态,E(yt)为第t个解码步骤时回复词的语义表示;
计算回复中的下一个词是从词典中生成的概率分布:
其中,V,b分别为待训练的权重和偏置,为解码器在第t个解码步骤时第二个子层的隐状态,为解码器在第t个解码步骤时第三个子层的隐状态;计算综合概率分布:
P(w)=pgenPvocab(w)+(1-pgen)Pcopy(w)(15)
其中,Pvocab(w)为下一个词是从词典中生成的概率分布,Pcopy(w)为综合拷贝概率分布,pgen为下一个词是生成的概率;
选取最高综合概率对应的词依次输出作为回复。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010077900.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:消防设施的集中监控巡检系统
- 下一篇:一种用于LED电子屏散热装置
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法