[发明专利]一种融合基础知识与用户信息的对话生成方法在审

申请号：	202310058399.8	申请日：	2023-01-19
公开（公告）号：	CN116010575A	公开（公告）日：	2023-04-25
发明（设计）人：	覃远年;黎桂成;吴冬雪;雷送强;宁波;卢玉胜	申请（专利权）人：	桂林电子科技大学
主分类号：	G06F16/332	分类号：	G06F16/332;G06F18/25;G06F18/214;G06N3/0499;G06N3/084
代理公司：	桂林市华杰专利商标事务所有限责任公司 45112	代理人：	罗玉荣
地址：	541004 广***	国省代码：	广西;45
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种融合基础知识用户信息对话生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种融合基础知识与用户信息的对话生成方法，其特征在于，包括如下步骤：

1)构建基于知识与角色信息的对话数据集：构建同时具有知识与角色信息的训练数据集，包括：基于基础知识数据库DBpedia的数据集D＝[d₁，d₂，...，d_n]、用户特征信息数据集P＝(p₁，p₂，....，p_n)、采用带有角色信息标注的语句进行人机交互获取对话数据，对话数据包括提问语句和回复语句l_m表示提问语句，表示回复语句；

2)获取用户信息嵌入向量、基础知识嵌入向量：采用多输入Transformer结构通过词嵌入embedding将自然语言映射至向量空间，分别对基础知识序列D、角色信息P进行词嵌入编码，分别得到词嵌入序列向量X(D)和X(P)，位置编码将词嵌入向量转变为包含各个频率的正弦和余弦向量表示，在高维向量空间捕捉词汇间的关系，得到带位置信息的词嵌入序列向量X_embed(D)和X_embed(P)：

X_embed＝Embedding+PositionalEncodering，

Embedding(D)＝D·W^d，Embedding(P)＝P·W^p，

其中，Embedding(·)表示词嵌入编码，W^d、W^p表示可学习的参数，PositionalEncodering(·)表示采用正、余弦函数的线性变换对词嵌入向量进行位置编码，T表示词嵌入序列中的任一位置，d表示向量维度，PositionalEncodering_(T，2i)表示词嵌入序列T在2i维度下的位置编码，PositionalEncodering_(T，2i+1)表示词嵌入序列T在2i+1维度下的位置编码，针对完成词嵌入与位置编码后得到的词嵌入向量X_embed(D)与X_embed(P)，经过Encoder层进行计算获取源文本隐藏特征序列C_E；

3)计算：采用多输入Transformer结构的编码器Encoder层对用户信息、基础知识嵌入向量进行编码，计算基础知识注意力向量与用户信息注意力向量，具体为：

Encoder层由两个子层组成，第一个子层为多头自注意力层Multi-Headed Attention，另一个为前馈神经网络FNN层，

计算多头注意力向量Attention(·)，计算公式为：

Q＝Linear(X_embed)＝X_embed*W_q，

K＝Linear(X_embed)＝X_embed*W_k，

V＝Linear(X_embed)＝X_embed*W_v，

其中，Linear(·)表示线性变换操作，Q，K，V分别表示查询向量序列，键向量序列和值向量序列，W_q、W_k、W_v分别为不同的可学习参数矩阵、且W_q W_k W_v∈R^d，R表示实数，d为词嵌入向量X_embed的维度，Softmax表示归一化指数函数，K^T是K的转置，多头表示多个不同的参数矩阵Wⁱ，对X_embed做线性映射投影到各个特征空间i，分别乘上三个权重W_q、W_k、W_v，多头注意力层融合了来自于相同的注意力池化产生的不同的知识，这些知识的不同来源于相同的查询矩阵Q、键矩阵K和值矩阵V的h个不同的特征空间，具体表示为h组不同的参数矩阵这h组变换后的查询、键和值并行地进行注意力池化，将这h组注意力池化的输出head_i拼接在一起，并且通过可以学习的线性投影矩阵W_h进行变换，产生最终基础知识多头注意力输出X_att(D)：

X_att(D)＝MultiHead(Q，K，V)＝Concat(head₁；head₂；……；head_h)W_h，

其中，MultiHead表示多头注意力函数，Concat表示级联操作，head_i表示第i个子空间的注意力输出，i∈(1，h)；表示第i个特征空间中查询向量Q的参数矩阵，表示第i个特征空间中键向量K的参数矩阵，表示第i个特征空间中值向量V的参数矩阵，i∈(1，h)，W_h表示可学习的线性投影矩阵，对于用户信息注意力向量X_att(P)的计算，与上述关于基础知识注意力向量X_att(D)的计算相同；

4)获取源文本隐藏表示：融合知识注意力向量、角色信息注意力向量，经过前向神经网络获取源文本隐藏表示C_E，具体为：

将步骤3)计算得到的基础知识注意力特征向量X_att(D)与用户信息注意力特征向量X_att(P)线性融合，输出编码器融合注意力向量X_hidden：

X_hidden＝Linear{X_att(D)；X_att(P)}，

Linear(；)表示级联操作，输出的X_hidden通过前馈神经网络FFN，然后接一个残差链接，即X_hidden和FFN的输出对位相加，最后把相加的结果进行一次LayerNorm层归一化，计算公式为：

FFN＝Linear{ReLU[Linear(X_hidden)]}，

C_E＝LayerNorm(X_hidden+FFN)，

其中，LayerNorm表示层归一化操作，FFN表示以ReLU作为激活函数的双层全连接网络，编码器源文本隐藏表示C_E作为下一模块解码器的输入；

5)对语言生成模型进行优化：采用多输入Transformer结构的解码器Decoder对基础知识、用户信息与当前状态同时计算注意力向量，将三次计算结果经线性融合获取融合注意力特征表示，结合融合注意力特征表示与源文本隐藏表示C_E获取上下文隐藏表示C_D，根据上下文隐藏表示C_D生成回复文本序列Y，定义损失函数对语言生成模型进行优化，如图3所示，具体为：

多输入Transformer结构的解码器Decoder由三个子层组成，第一个子层为掩码多头自注意层，第二个子层为编码器-解码器注意力层，第三个子层是前馈神经网络层，掩码多头注意力层中以历史对话数据为输入提取掩码注意力向量，计算公式为：

其中，表示掩码注意力向量，X_embed(L)表示经过词嵌入与位置编码的对话数据向量，接收编码器输出C_E作为编码器-解码器多头注意力层的输入提取历史对话注意力特征向量E，E与基础知识注意力特征向量X_att(D)与用户信息注意力特征向量X_att(P)经线性融合输出解码器隐藏表示C_D，计算公式为：

其中，E表示历史对话注意力特征向量，表示可学习投影矩阵，X_att(D)表示基础知识注意力特征向量，X_att(P)表示用户信息注意力特征向量，表示融合基础知识、用户信息与历史会话信息的融合注意力向量，Linear(；)表示级联操作，C_D表示经层归一化操作后获取的解码器隐藏表示，前馈神经网络层部分与编码器部分相同，即一个两层的、带残差链接的全连接网络，后接一个归一化层，解码器的输出C_D即最后一个解码器基本单元的输出经线性变换和Softmax函数映射为下一时刻预测单词的概率分布，在给定编码器输出C_E和解码器前一时刻输出y_t-1下，预测当前时刻单词的概率分布P(Y)，生成回复序列文本Y的概率表示P(Y)的函数表达式为：

Y＝(y₁，y₂，.....，y_t-1，y_t)，

P(Y)＝Softmax(FFN(C_D)+C_D)，

其中，Y表示模型生成的回复文本，Softmax表示归一化指数函数，FFN表示以ReLU作为激活函数的双层全连接网络，采用最大似然估计作为损失函数，整体总损失函数采用权重参数将各项最大似然估计函数进行全连接：

Loss＝α*L_P+β*L_D，

其中，m，n表示样本数；L_P表示用户判定的损失函数，L_D表示知识判定的损失函数；pⁱ表示模型在预测中使用的第i个用户样本；dⁱ表示模型在预测中使用的第i条知识；表示模型对用户判定与知识判定的预测结果，Loss表示联合损失函数，α、β表示可调权重参数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学，未经桂林电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202310058399.8/1.html，转载请声明来源钻瓜专利网。