[发明专利]动态嵌入投影门控的多类别多标签文本分类模型及装置在审
申请号: | 202010503497.4 | 申请日: | 2020-06-05 |
公开(公告)号: | CN111639186A | 公开(公告)日: | 2020-09-08 |
发明(设计)人: | 谭志鹏;康琦;陈晶 | 申请(专利权)人: | 同济大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/151;G06F40/30;G06N3/04 |
代理公司: | 上海德昭知识产权代理有限公司 31204 | 代理人: | 卢泓宇 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 动态 嵌入 投影 门控 类别 标签 文本 分类 模型 装置 | ||
1.一种动态嵌入投影门控的多类别多标签文本分类模型,用于对输入文本进行文本分类,其特征在于,包括:
预处理层,用于对所述输入文本进行预处理得到预处理文本;
词嵌入层,用于通过预训练分布式词向量对所述预处理文本进行初始化从而获取包含原始信息的第一词嵌入矩阵;
词嵌入动态控制层,用于根据所述第一词嵌入矩阵提取融合了该第一词嵌入矩阵上下文信息的转换信息,并基于动态嵌入投影门控制所述原始信息与所述转换信息形成第二词嵌入矩阵;
细粒度信息增强层,用于通过多核多通道卷积神经网络对所述第二词嵌入矩阵进行语义编码获取细粒度信息增强的增强文本表征;
语义信息分类层,用于通过全连接神经网络将所述增强文本表征映射至样本标记空间,从而输出类别概率分布并完成所述文本分类。
2.根据权利要求1所述的动态嵌入投影门控的多类别多标签文本分类模型,其特征在于:
其中,所述词嵌入动态控制层具有卷积核大小为r、通道数为h的一维卷积神经网络,该一维卷积神经网络用于根据所述第一词嵌入矩阵获取所述转换信息T=[t1,t2,...tn]Τ,该转换信息T可以通过计算所述输入文本每个特定位置i的位置转换信息ti,i=1,2,…,n得到,即:
ti=[t1,t2,...th]
tj=f(g(Wj⊙Xi:i+r)+bj)j=1,2,...h
式中,tj代表所述特定位置i的第j维特征,⊙为矩阵之间对应元素的点积操作,g为矩阵各元素之间的求和函数,f为ReLU激活函数,Wj和bj分别代表所述一维卷积神经网络第j个通道的权重矩阵和偏置项,
所述动态嵌入投影门分为负责控制所述转换信息T流动的转换门Gt以及负责控制所述原始信息X流动的传送门Gc,即:
Gt=σ(XWproj+bproj)
Gc=1-Gt
式中,Wproj和bproj分别代表所述动态嵌入投影门的权重矩阵和偏移向量,σ为sigmoid激活函数,
所述词嵌入动态控制层通过所述转换门Gt以及所述传送门Gc将所述原始信息X以及所述转换信息T结合得到所述第二词嵌入矩阵E:E=X⊙Gc+T⊙Gt。
3.根据权利要求1所述的动态嵌入投影门控的多类别多标签文本分类模型,其特征在于:
其中,所述多核多通道卷积神经网络的卷积核大小分别为k1、k2、k3,通道数为l,
所述第二词嵌入矩阵输入到所述多核多通道卷积神经网络之后,首先输出三个不同粒度的n-gram文本特征图,该n-gram文本特征图的特征图维度分别是(n-k1+1)×l、(n-k2+1)×l、(n-k2+1)×l,其次沿着所述输入文本的方向分别对每个所述文本特征图进行最大化池操作从而得到维度为l的三个文本表征,最后将三个所述文本表征进行拼接从而得到所述增强文本表征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010503497.4/1.html,转载请声明来源钻瓜专利网。