[发明专利]基于分层匹配注意力机制的问答文本属性类别分类方法在审
申请号: | 202011286951.1 | 申请日: | 2020-11-17 |
公开(公告)号: | CN112434128A | 公开(公告)日: | 2021-03-02 |
发明(设计)人: | 刘木沐;吴含前;姚莉;李露 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06F16/35;G06F40/30;G06N3/04 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 薛雨妍 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 分层 匹配 注意力 机制 问答 文本 属性 类别 分类 方法 | ||
1.基于分层匹配注意力机制的问答文本属性类别分类方法,其特征在于,该方法包括语料标注阶段和属性类别分类阶段;
其中在所述属性类别分类阶段,首先基于句子切分算法将问题文本和答案文本进行句子切分,其次并为每条问答式评论文本构建多个(句子,句子)单元;
其次,利用问答匹配注意力层对每个(句子,句子)单元进行编码来匹配问题文本和答案文本的各个句子;
最后,利用高阶自匹配注意力层来捕捉不同的(句子,句子)单元对于识别属性类别的重要程度,从而较为准确地识别出问答式评论文本中所涉及的属性类别。
2.根据权利要求1所述的基于分层匹配注意力机制的问答文本属性类别分类方法,其特征在于,其中在语料标注阶段:在对问答文本进行语料标注时需要分别抽取描述语、属性类别及情感极性,在标注过程中应遵循以下三个准则:
(1)当问题中对于属性的情感倾向和答案中的不一致时,情感极性标注以答案中为准;
(2)当问题和答案中出现的描述语是同一属性的不同表述时,描述语标注以问题中为准;
(3)当问题和答案中出现的描述语数量不一致时,抽取描述语的个数以问题中为准,最终生成属性描述语,属性类别,情感极性形式的三元组,从而实现高质量语料库的构建。
3.根据权利要求2所述的基于分层匹配注意力机制的问答文本属性类别分类方法,其特征在于,根据语料特点,设计一种句子切分算法,对问题文本和答案文本进行句子切分,尽可能地让每个句子只包含一个属性类别;主要思想是基于斯坦福大学的CoreNLP工具对问题文本和答案文本进行初步的切分,再利用合并操作对初步的切分结果进行处理。
4.根据权利要求1所述的基于分层匹配注意力机制的问答文本属性类别分类方法,其特征在于,在所述训练模型阶段中的神经网络模型的输入文本序列为问答式评论文本中问题句子和答案句子的词向量表示,用于模型的训练,且词向量维度为100;根据开发集调参得到,问题句子和答案句子个数的最佳值为2。
5.根据权利要求1所述的基于分层匹配注意力机制的问答文本属性类别分类方法,其特征在于,所述属性类别分类阶段的神经网络模型中训练模型参数的方法采用Adagrad算法,其形式如下式所示:
r←r+g⊙g
θ←θ+Δθ
其中,r为梯度累积变量,r的初始值为0;ε为全局学习率,需要自己设置,δ为小常数,为了数值稳定大约设置为10-7。
6.根据权利要求1所述的基于分层匹配注意力机制的问答文本属性类别分类方法,其特征在于,所采用的匹配注意力层包括问答匹配注意力层和高阶自匹配注意力层两部分;
问答匹配注意力层主要基于注意力机制捕捉问题句子和答案句子之间的匹配信息,从而对每个(句子,句子)单元进行编码;
高阶自匹配注意力层主要是基于注意力机制捕捉不同的(句子,句子)单元对于识别某一属性类别的重要程度。
7.根据权利要求6所述的基于分层匹配注意力机制的问答文本属性类别分类方法,其特征在于,基于长短期记忆神经网络模型进行搭建模型;在RNN的基础上,LSTM增加了单元状态和三个门控机制:输入门it、遗忘门ft和输出门ot;其核心是单元状态,作为整个模型的记忆空间,三个门控则负责去除或增加信息到单元状态;在每个LSTM细胞单元中,三个门控将当前时刻的输入、上一时刻的隐层状态以及单元状态的线性变化相加,再以Sigmoid函数激活得到一个[0,1]之间的门限作为输出,并由此通过上一时刻的单元状态ct-1来计算当前时刻的单元状态ct,可用以下公式作形式化地描述:
it=σ(Wi·[ht-1,xt]+bi)
ft=σ(Wf·[ht-1,xt]+bf)
ot=σ(Wo·[ht-1,xt]+bo)
ct=ft⊙ct-1+it⊙tanh(Wc·[ht-1,xt]+bc)
其中,σ表示Sigmoid激活函数,Wi、bi、Wf、bf、Wo和bo分别为输入门、遗忘门、输出门的参数,⊙表示矩阵的点乘操作。xt是t时刻LSTM细胞单元的输入,即词向量表示wt,其相应的隐层向量为hN;最后,单元状态ct经过tanh非线性激活后与输出门点乘,便可得到当前时刻的隐层状态ht,可用如下公式计算得到:
ht=ot⊙tanh(ct)
对于文本分类任务而言,通常将最后时刻的隐向量hN作为文本的最终表示,经过softmax层线性化为一维向量;该向量的长度等于分类的类别数,向量中的各个数值则表示该文本属于各类别的概率,最大值对应的类别即为该文本所属类别的预测值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011286951.1/1.html,转载请声明来源钻瓜专利网。