[发明专利]一种基于平衡分布的通用英文人机对话生成方法和系统有效
申请号: | 201911255411.4 | 申请日: | 2019-12-10 |
公开(公告)号: | CN111046157B | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 荣文戈;杨浩东;欧阳元新;熊璋 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 杨学明;邓治平 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 平衡 分布 通用 英文 人机对话 生成 方法 系统 | ||
1.一种基于平衡分布的通用英文人机对话生成方法,其特征在于,包括以下步骤:
步骤(1)、初始化文本词向量,采用文本语料预训练完成的词向量来表示对话语料中的单词,对于出现频率低于阈值的单词,统一将其指定为未知UNK;
步骤(2)、搭建特征感知权重网络,首先搭建两层前馈神经网络,将对话语料中的输入转变为词向量形式并作为两层前馈网络的输入;
zi=g(zi-1)=f(Wizi-1+bi)
其中,Wi,bi是神经网络中的权重参数,z0=e,也即是输入单词的词向量zi是特征感知权重网络的第i层,g(·)和f(·)是激活函数,所述激活函数均是修正线性单元(RectifiedLinear Units,ReLU)激活函数;
步骤(3)、为步骤(2)中所搭建的特征感知权重网络计算分类结果,即为对话语料中待训练的每个单词计算软最大化(Softmax)结果:
pk=softmax(Wszi+bs)
其中,Ws,bs是特征感知权重网络中的权重参数,s指该参数为特征感知权重网络的参数,pk是C维向量,其中,k是指第k个单词,C是对话行为的类别数量,其中每一维都表示对应的对话行为类别的概率;软最大化(Softmax)计算公式如下:
q是指softmax的输入变量,对应于上文中的Wszi+bs;
基于上述特征感知权重网络结构,对对话行为的分类结果为p,p由所有这些软最大化(Softmax)结果相加得到:
其中,k指的是第k个单词;
步骤(4)、根据步骤(3)所得到的特征感知权重网络分类结果和真实结果来计算交叉熵损失函数;使用梯度下降法不断的迭代训练特征感知权重网络直到收敛;此处根据不同的场景选择不同的对话行为标签来进行训练,如果希望表达特定的对话意图,则选择对话行为标签,如果希望传达特定的情绪,则选择对话情感标签;
步骤(5)、根据步骤(4)所得到的收敛后的特征感知权重网络,得到对句子的预测类别c,其定义如下:
其中,i表示p的第i维分量;
步骤(6)、搭建对话生成器模型;
其中,X,x1,x2,...,xN表示对话的上下文,Y,y1,y2,...,yk则表示生成的响应,P表示生成概率;为该生成器模型附加上注意力机制,注意力机制会为解码器中的每个单词,根据当前的情况生成不同的上下文向量,得到附加注意力机制之后的生成器的生成概率P为:
P(yt|y1,y2,...,yk-1,X)=g(yt-1,st,ci)
st=f(yt-1,st-1,ci)
其中,g,f是激活函数,st是长短期记忆网络在t时刻的隐藏状态,ci则是第i个词的上下文向量,并且:
a使用多层感知机(Multi-Layer Perceptron,MLP)来计算解码器中第i个词和编码器中每个词的相对权重;hj和hk均为生成器模型中编码器的第j个和第k个隐藏状态,αij表示注意力机制中的权重,exp表示指数函数;
使用长短期记忆网络作为其基本单元,先搭建长短期记忆网络,长短期记忆网络结构如下:
it=σ(Wixt+Uiht-1+bi)
ft=σ(Wfxt+Ufht-1+bf)
gt=φ(Wgxt+Ught-1+bg)
ot=σ(Woxt+Uoht-1+bo)
st=gt⊙it+st-1⊙ft,ht=st⊙φ(ot)
其中:it,ft和ot分别为长短期记忆网络模型中所涉及的输入门、遗忘门以及输出门,三种门均使用Sigmoid激活函数,从而其数值均在0到1之间,1表示“完全保留”,0表示“完全舍弃”,⊙表示的是矩阵乘法操作,W、U为长短期记忆网络中的权重矩阵,隐藏状态hj表示长短期记忆网络层中第j个单词所对应的输出;b则表示计算输入门、遗忘门、输出门的公式所对应的偏置向量;
步骤(7)、整体训练;在得到了步骤(5)的特征感知权重网络之后,在以下的步骤中将其作为黑盒使用;在训练过程中,首先从生成器模型中获得各个单词的生成概率并从特征感知权重网络中获得分类结果c,然后便得到向量[p1[c],p2[c],...,pK-1[c],pK[c]],该向量的每一维表示句子中的每个单词所对应的权重,由此得到平衡分布后的损失函数:
此处的Y=y1,y2,...,yK是对话数据集中的真实响应,FAWN表示特征感知权重网络,ce表示标准的交叉熵损失函数,并且对每个单词将其真实类别所对应的概率值pk[c]作为权重:
步骤(8)、根据步骤(7)中的目标损失函数对上述的生成器模型进行训练,得梯度下降表达式如下:
根据Adam梯度下降算法在训练过程中对基于对话行为的对话生成模型中的词向量参数,以及上述步骤中提及的待训练权重矩阵和长短期记忆网络结构中的输入,输出,遗忘门进行优化,最终得到优化后的基于对话行为的对话生成模型,以及其所生成的响应;基于上述优化后的基于对话行为的对话生成模型根据用户输入英文语句,自动生成输出的英文对话语句。
2.一种基于平衡分布的通用英文人机对话生成系统,包括计算机,显示设备,输入设备,用户通过输入设备输入英文对话,所述显示设备输出计算机自动生成的英文对话结果;其特征在于,该系统还包括:
初始化单元,初始化文本词向量,采用文本语料预训练完成的词向量来表示对话语料中的单词,对于出现频率低于阈值的单词,统一将其指定为未知UNK;
特征感知权重网络搭建单元,搭建特征感知权重网络,首先搭建两层前馈神经网络,将对话语料中的输入转变为词向量形式并作为两层前馈网络的输入;
zi=g(zi-1)=f(Wizi-1+bi)
其中Wi,bi是神经网络中的权重参数,z0=e,也即是输入单词的词向量zi是特征感知权重网络的第i层,g(·)和f(·)是激活函数,所述激活函数均是修正线性单元(RectifiedLinear Units,ReLU)激活函数;
权重计算单元,为特征感知权重网络搭建单元中所搭建的特征感知权重网络计算分类结果,即为对话语料中待训练的每个单词计算软最大化(Softmax)结果:
pk=softmax(Wszi+bs)
其中,Ws,bs是特征感知权重网络中的权重参数,s指该参数为特征感知权重网络的参数,pk是C维向量,其中,k是指第k个单词,C是对话行为的类别数量,其中每一维都表示对应的对话行为类别的概率;软最大化(Softmax)计算公式如下:
q是指softmax的输入变量,对应于上文中的Wszi+bs;
基于上述特征感知权重网络结构,对对话行为的分类结果为p,p由所有这些软最大化(Softmax)结果相加得到:
其中,k指的是第k个单词;
交叉熵损失计算单元,根据权重计算单元所得到的特征感知权重网络分类结果和真实结果来计算交叉熵损失函数;使用梯度下降法不断的迭代训练特征感知权重网络直到收敛;此处根据不同的场景选择不同的对话行为标签来进行训练,如果希望表达特定的对话意图,则选择对话行为标签,如果希望传达特定的情绪,则选择对话情感标签;
句子类别预测单元,根据交叉熵损失计算单元所得到的收敛后的特征感知权重网络,得到对句子的预测类别c,其定义如下:
其中,i表示p的第i维分量;
对话生成器单元,搭建对话生成器模型;
其中X,x1,x2,...,xN表示对话的上下文,Y,y1,y2,...,yk则表示生成的响应,P表示生成概率;为该生成器模型附加上注意力机制,注意力机制会为解码器中的每个单词,根据当前的情况生成不同的上下文向量,得到附加注意力机制之后的生成器的生成概率P为:
P(yt|y1,y2,...,yk-1,X)=g(yt-1,st,ci)
st=f(yt-1,st-1,ci)
其中,g,f是激活函数,st是长短期记忆网络在t时刻的隐藏状态,ci则是第i个词的上下文向量,并且:
a使用多层感知机(Multi-Layer Perceptron,MLP)来计算解码器中第i个词和编码器中每个词的相对权重;hj和hk均为生成器模型中编码器的第j个和第k个隐藏状态,αij表示注意力机制中的权重,exp表示指数函数;
使用长短期记忆网络作为其基本单元,先搭建长短期记忆网络,长短期记忆网络结构如下:
it=σ(Wixt+Uiht-1+bi)
ft=σ(Wfxt+Ufht-1+bf)
gt=φ(Wgxt+Ught-1+bg)
ot=σ(Woxt+Uoht-1+bo)
st=gt⊙it+st-1⊙ft,ht=st⊙φ(ot)
其中:it,ft和ot分别为长短期记忆网络模型中所涉及的输入门、遗忘门以及输出门,三种门均使用Sigmoid激活函数,从而其数值均在0到1之间,1表示“完全保留”,0表示“完全舍弃”,⊙表示的是矩阵乘法操作,W、U为长短期记忆网络中的权重矩阵,隐藏状态hj表示长短期记忆网络层中第j个单词所对应的输出;b则表示计算输入门、遗忘门、输出门的公式所对应的偏置向量;
整体训练单元,整体训练;在得到特征感知权重网络之后,在以下的步骤中将其作为黑盒使用;在训练过程中,首先从生成器模型中获得各个单词的生成概率并从特征感知权重网络中获得分类结果c,然后便得到向量[p1[c],p2[c],...,pK-1[c],pK[c]],该向量的每一维表示句子中的每个单词所对应的权重,由此得到平衡分布后的损失函数:
此处的Y=y1,y2,...,yK是对话数据集中的真实响应,FAWN表示特征感知权重网络,ce表示标准的交叉熵损失函数,并且对每个单词将其真实类别所对应的概率值pk[c]作为权重:
模型训练单元,根据整体训练单元中的目标损失函数对上述的生成器模型进行训练,得梯度下降表达式如下:
对话自动生成单元,根据Adam梯度下降算法在训练过程中对基于对话行为的对话生成模型中的词向量参数,以及上述步骤中提及的待训练权重矩阵和长短期记忆网络结构中的输入,输出,遗忘门进行优化,最终得到优化后的基于对话行为的对话生成模型,以及其所生成的响应;基于上述优化后的基于对话行为的对话生成模型根据用户输入英文语句,自动生成输出的英文对话语句。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911255411.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于AR技术的书写指导器及书写指导方法
- 下一篇:一种新型外墙保温建筑板