[发明专利]一种由粗到细的显示记忆网络口语理解模型在审
申请号: | 202111452034.0 | 申请日: | 2021-12-01 |
公开(公告)号: | CN114116984A | 公开(公告)日: | 2022-03-01 |
发明(设计)人: | 杜凡凡;刘美玲;杨喜雨 | 申请(专利权)人: | 杜凡凡 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06N3/04;G06N3/08 |
代理公司: | 湖北创融蓝图知识产权代理事务所(特殊普通合伙) 42276 | 代理人: | 何龙 |
地址: | 150040 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 粗到细 显示 记忆 网络 口语 理解 模型 | ||
1.一种由粗到细的显示记忆网络口语理解模型,其特征在于:所述的由粗到细显示记忆网络口语理解模型由编码模块、显示记忆模块、推理决策模块、隐含意图预测模块组成,
所述的编码模块采用BERT进行编码,设fK,fQ,[fH,1,fH,2,…,fH,P]表示用户问题、对话场景和历史对话的意图标签和槽标签的输入,我们首先将用户问题fk进行分割,根据句子边界或条件,在句子的开头部分插入[CLS]标记,并把它们连接成一个向量序列:
[[CLS],fk,1;...;[CLS],fk,M;[CLS],fH,1;...;[CLS],fH,P];
然后我们使用BERT,它是一种预训练编码器,可以将标记的序列编码成向量序列,并且长度一致,同时,我们把每一个句子[CLS]的标记表示都看作是下一个句子特征表示,于是,我们就可以得到每个句子所体现出来的标记级和句子级表示;对话的句子级可以表示为k1,…,kM,标记级可以表示为其中ni是句子i的标记数;同样,我们将对话场景和历史对话的句子级表示为QK,QQ,和Q1,…QP;
所述的显示记忆模块,在给定用户提供的信息包括用户问题sK,对话场景ss,历史对话sP,依次读取用户提供的相关信息,以显示的方式对用户提供信息里的意图和槽之间的隐藏状态进行记忆追踪,受胶囊经网络的启发,我们提出了显示记忆模块(EM),一个门控记忆神经网络,通过顺序理解用户提供的对话信息,更新跟踪对话所隐藏的信息状态;
EM通过显式的方式保存更新后的语义状态信息,每个状态qi的值匹配到对应句子的值,来进行初始化。然后模型依次读取用户提供的对话信息QKQQ,Q1,…,QP,在时间长度为t时,将用户提供的对话信息st∈{QK,QQ,Q1,…,QP}去更新第i句话的意图和槽隐含的语义值状态qi,t,
当Vk,Vq,VQ∈Ad×d时,σ代表sigmoid函数,⊙是数积;
由于用户输入Qt可能只与问题条件部分相关,因此门控函数将Qt匹配到记忆网络中;然后EM以门控方式更新显示出来的隐含状态vi,t;依次读取完用户提供的对话信息之后完成隐含的语义条件推理过程后,对话的键和更新后的最新状态表示为(k1,q1),…,(kM,qM),将用于推理模块和预测意图决策模块;
推理决策模块,基于用户问题(k1,q1),…,(kM,qM)的最终的更新后键值状态,推理决策模块在Inquire中预测出决策,首先,我们使用自注意力来计算总体意图和槽语义状态的汇总向量c:
向量k1和q1的之间的拼接表示为[k1;q1],ωi是对话中句子ki的注意力权重,它体现了用户所提供的对话信息里ki的可能性;最后,通过对总体意图和槽语义状态的向量c的线性变换来确定:
z=Wzc+bz∈A4 (7)
其中z∈A4,l表示推理出的决策,推理决策模块使用交叉熵损失函数进行推理:
为了跟踪对话意图是否已经满足要求,我们添加了一个子任务来预测每句话的意图标签和槽标签之间的语义隐含状态,语义隐含状态包括隐含、矛盾和未知,通过这种监督机制,模型可以根据每句话的隐含状态做出更好的决策,隐含推理预测是通过对最终更新到的键值状态[ki;qi];从EM模块中取出;
vi=Vv[ki;qi]+bv∈A3 (9)
其中,对于第i条对话句子,vi∈A3隐含的语义状态有三种包括的分数,r表示隐含的语义状态得到有效预测;隐含语义预测子任务采用交叉熵损失来进行,对话句子数M归一化表示:
隐含意图预测模块当推理决策模块推理出隐含的语义关系时,我们对这个隐含关系进行意图预测,做出相应回应;我们将这个问题分解为两个阶段,首先,我们在对话中提取包含未知用户隐含信息的跨度;其次,我们将提取到未知的跨度进行预测意图;我们提出了一种从粗到细的方法来提取第一阶段未知的跨度;
由粗到细跨度抽取。通过提取多个跨度推理隐含语义关系的条件,这个方法的缺点是,提取多个跨度是一项难度较大的任务,有可能会将错误的状态也引入进来,所以我们提出了一种从粗到细的推理方法来直接找到未知隐含关系的跨度,而不用复杂的从对话中提取多个跨度,因此,我们利用隐含语义推理预测子任务中的Unknown scores并对其进行归一化(在对话句子中),来确定第i句话包含未知用户隐含信息跨度的可能性有多大:
了解对话中未知隐含关系跨度的可能性并大大降低了在提取未知用户信息跨度的难度,我们通过运用软选择的方法,通过对话识别分数ζi来调整用户隐含关系跨度提取(即预测跨度的起始点和结束点)分数,我们遵循BERTQA方法[14]来建立跨度中的一个起始向量ws∈Ad和一个结束向量wv∈Ad来从整个对话中找到起始和结束位置,第i句话ui,j中第j个单词的概率作为隐含关系跨度的开始/结束计算为ws和ui,j之间的点积,其中对话中识别分数ζi调整:
起始位置和结束位置必须属于同一对话的情况下,提取了具有最高分数的隐含关系跨度γ*δ,设s和v为用户隐含信息跨度的起始和结束位置,不满足隐含关系跨度提取损失作为指向跨度损失计算;
总体损失是推理决策损失、隐含语义预测损失和隐含关系跨度提取损失的总和;
其中λ1和λ2是可调超参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杜凡凡,未经杜凡凡许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111452034.0/1.html,转载请声明来源钻瓜专利网。