[发明专利]一种字符级的基于嵌套深度网络的文本分类方法有效

专利信息
申请号: 201711205146.X 申请日: 2017-11-27
公开(公告)号: CN107832458B 公开(公告)日: 2021-08-10
发明(设计)人: 郑子彬;李晓杰;吴向军 申请(专利权)人: 中山大学
主分类号: G06F16/35 分类号: G06F16/35;G06N3/04;G06N3/08
代理公司: 广东广信君达律师事务所 44329 代理人: 杨晓松
地址: 510275 *** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 字符 基于 嵌套 深度 网络 文本 分类 方法
【权利要求书】:

1.一种字符级的基于嵌套深度网络的文本分类方法,其特征在于:包括以下步骤:

S1、构造字符向量矩阵表:

假设C为文本中所用的字符集,构造一个字符向量矩阵Q∈R|C|×|C|,记录下每一个字符对应的行编号;

S2、短文本预处理;

S3、改进Resnet提取高维序列特征;

S4、LSTM网络分类;

所述步骤S2短文本预处理分为两步,具体步骤如下:

S21、矩阵转换:

根据短文本T中的字符以及字符向量矩阵表Q,输出文本向量空间I∈Rl×|C|,l为文本T的总字符数;

S22、矩阵裁剪填充:

对文本向量空间I进行裁剪填充,以适应嵌套深度网络的输入;

所述步骤S3改进Resnet提取高维序列特征的具体步骤如下:

S31、Resnet特征提取:

Resnet采用50层的版本,去除其上层的全链接层和分类层,最后输出Resnet网络的中间特征;

S32、最大值池化:

在得到N个特征图后,对每个特征图的行向量进行最大值池化,只保留响应最大的特征值;

S33、特征重序列化:

对特征图进行重新序列化,以保持其时序性,适应LSTM的运算,最终输出多个序列化的特征图。

2.根据权利要求1所述的一种字符级的基于嵌套深度网络的文本分类方法,其特征在于:所述步骤S4LSTM网络分类的具体计算步骤如下:

S41、门gate计算;

每个Cell有三个门gate:输入门inputgate、遗忘门forgetgate、输出门outputgate,计算如下:

it=g(W×iM_St+Whiht-1+bi);

ft=g(W×fM_St+Whfht-1+bf);

ot=g(W×oM_St+Whoht-1+bo);

其中,ht-1为上一个单元的输出,当t-1不存在时,ht-1初始化0,W为各个门gate的权重向量,b为各个gate的偏移量,g为元素级的sigmoid函数;

S42、输入变换;

除了三个门gate之外,每个Cell均拥有一个状态c,需要通过计算将输入转换成对应Cell的状态量,具体计算如下:

c_int=tanh(W×cM_St+Whcht-1+bo_in)

其中,W为当前Cell的状态计算的权重向量,b为当前Cell的状态计算的偏移量,tanh为元素级的tanh函数;

S43、状态更新;

在计算完所有的gate变量和当前输入的状态量后,对当前Cell状态进行更新以及计算当前Cell的输出,具体计算如下:

ct=ft*ct-1+it*c_int

ht=ot*tanh(ct);

其中,ct为当前Cell的状态量,ht为当前Cell的输出;

S44、分类;在经过了所有Cell单元的计算之后,将最后的Cell的输出ht输入到Softmax函数中,得到最后的分类结果。

3.根据权利要求2所述的一种字符级的基于嵌套深度网络的文本分类方法,其特征在于:步骤S4所述LSTM网络的训练以Softmax函数为指导,通过采用最小化交叉熵代价函数获取当前网络相对于训练集的误差,对于训练样本T(i),其标签y(i)∈{1,2,…,k},k为所有的标签的数量以及其估计概率为其代价函数为:

其中,1{condition}为二类函数,当condition为真时,其为1,否则为0;

取得误差后,采用随机梯度下降SDG将误差反向传播以更新网络中的参数,最终得到最优化的网络。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711205146.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top