[发明专利]一种字符级的基于嵌套深度网络的文本分类方法有效
申请号: | 201711205146.X | 申请日: | 2017-11-27 |
公开(公告)号: | CN107832458B | 公开(公告)日: | 2021-08-10 |
发明(设计)人: | 郑子彬;李晓杰;吴向军 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 广东广信君达律师事务所 44329 | 代理人: | 杨晓松 |
地址: | 510275 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 字符 基于 嵌套 深度 网络 文本 分类 方法 | ||
1.一种字符级的基于嵌套深度网络的文本分类方法,其特征在于:包括以下步骤:
S1、构造字符向量矩阵表:
假设C为文本中所用的字符集,构造一个字符向量矩阵Q∈R|C|×|C|,记录下每一个字符对应的行编号;
S2、短文本预处理;
S3、改进Resnet提取高维序列特征;
S4、LSTM网络分类;
所述步骤S2短文本预处理分为两步,具体步骤如下:
S21、矩阵转换:
根据短文本T中的字符以及字符向量矩阵表Q,输出文本向量空间I∈Rl×|C|,l为文本T的总字符数;
S22、矩阵裁剪填充:
对文本向量空间I进行裁剪填充,以适应嵌套深度网络的输入;
所述步骤S3改进Resnet提取高维序列特征的具体步骤如下:
S31、Resnet特征提取:
Resnet采用50层的版本,去除其上层的全链接层和分类层,最后输出Resnet网络的中间特征;
S32、最大值池化:
在得到N个特征图后,对每个特征图的行向量进行最大值池化,只保留响应最大的特征值;
S33、特征重序列化:
对特征图进行重新序列化,以保持其时序性,适应LSTM的运算,最终输出多个序列化的特征图。
2.根据权利要求1所述的一种字符级的基于嵌套深度网络的文本分类方法,其特征在于:所述步骤S4LSTM网络分类的具体计算步骤如下:
S41、门gate计算;
每个Cell有三个门gate:输入门inputgate、遗忘门forgetgate、输出门outputgate,计算如下:
it=g(W×iM_St+Whiht-1+bi);
ft=g(W×fM_St+Whfht-1+bf);
ot=g(W×oM_St+Whoht-1+bo);
其中,ht-1为上一个单元的输出,当t-1不存在时,ht-1初始化0,W为各个门gate的权重向量,b为各个gate的偏移量,g为元素级的sigmoid函数;
S42、输入变换;
除了三个门gate之外,每个Cell均拥有一个状态c,需要通过计算将输入转换成对应Cell的状态量,具体计算如下:
c_int=tanh(W×cM_St+Whcht-1+bo_in)
其中,W为当前Cell的状态计算的权重向量,b为当前Cell的状态计算的偏移量,tanh为元素级的tanh函数;
S43、状态更新;
在计算完所有的gate变量和当前输入的状态量后,对当前Cell状态进行更新以及计算当前Cell的输出,具体计算如下:
ct=ft*ct-1+it*c_int;
ht=ot*tanh(ct);
其中,ct为当前Cell的状态量,ht为当前Cell的输出;
S44、分类;在经过了所有Cell单元的计算之后,将最后的Cell的输出ht输入到Softmax函数中,得到最后的分类结果。
3.根据权利要求2所述的一种字符级的基于嵌套深度网络的文本分类方法,其特征在于:步骤S4所述LSTM网络的训练以Softmax函数为指导,通过采用最小化交叉熵代价函数获取当前网络相对于训练集的误差,对于训练样本T(i),其标签y(i)∈{1,2,…,k},k为所有的标签的数量以及其估计概率为其代价函数为:
其中,1{condition}为二类函数,当condition为真时,其为1,否则为0;
取得误差后,采用随机梯度下降SDG将误差反向传播以更新网络中的参数,最终得到最优化的网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711205146.X/1.html,转载请声明来源钻瓜专利网。