[发明专利]基于深度学习的词句级短文本分类方法在审

专利信息
申请号: 201910901086.8 申请日: 2019-09-23
公开(公告)号: CN110717330A 公开(公告)日: 2020-01-21
发明(设计)人: 杨悦;孟宪禹 申请(专利权)人: 哈尔滨工程大学
主分类号: G06F40/289 分类号: G06F40/289;G06F40/30;G06F16/35;G06K9/62;G06N3/04;G06N3/08
代理公司: 暂无信息 代理人: 暂无信息
地址: 150001 黑龙江省哈尔滨市南岗区*** 国省代码: 黑龙;23
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 短文本分类 词向量 卷积 向量 分类 自然语言处理技术 卷积神经网络 垃圾电子邮件 循环神经网络 上下文关联 复杂文本 记忆网络 输入词句 特征结合 文本内容 新闻文本 短文本 特征图 停用词 池化 分词 分句 去除 词句 核对 表现 测试 中文 转化 学习
【权利要求书】:

1.基于深度学习的词句级短文本分类方法,其特征在于,包括:

步骤一:获取待分类的文本数据及标签;

步骤二:处理文本数据,通过Word2Vector训练获得词向量源表与检索词向量源表的词标签表;

步骤三:通过识别尾缀符对文本数据进行分句处理,之后递归的对每个句子进行分词、去除停用词操作,最后通过词标签表检索词向量源表中的词向量来表示词,并根据句内词维数与句子要求进行Padding操作;最终将文本转化为y×x×z的三维张量,其中y为句维数、x为句内词维数、z为词向量维数;

步骤四:使用多卷积核对输入张量进行一维卷积计算,卷积后的特征图高度为H2=(H1-F+2P)/S+1,其中F表示卷积核维度的大小,P表示Padding的尺寸,S表示卷积步长,通过n个卷积核的计算,每个句子最终获得n张一维卷积特征图;

步骤五:使用一维最大池化MaxPooling1D对卷积后的结果进行池化以提取句子的核心特征,池化后每个卷积核计算出的特征图将压缩为一个单一值,每个句子的特征由n个特征图池化后连接得到的n维向量表示,其将作为长短期记忆层某一时序下的输入;

步骤六:通过卷积层与池化层递归的对每个句子进行计算,获得总时序y下长短期记忆层的输入;

步骤七:将长短期记忆层的输出作为输入进入全连接层,用以平展网络的输出,全连接层输出维度为数据的类别数目并将Softmax函数作为分类器,通过计算全连接层的输出实现分类,其计算式为其中,y(i)代表输出层第i个神经元的值,y(k)代表输出层中第k个神经元的值,exp代表以e为底的指数函数。

2.根据权利要求1所述的基于深度学习的词句级短文本分类方法,其特征在于:所述的步骤四中一维卷积计算式为其中Mj表示某一卷积核输入值集合,与分别为卷积权重和偏置。

3.根据权利要求1所述的基于深度学习的词句级短文本分类方法,其特征在于:所述的步骤四中使用一维卷积层对输入进行卷积操作,卷积核大小设置为5,步长为1,数目256个。

4.根据权利要求1所述的基于深度学习的词句级短文本分类方法,其特征在于:所述的步骤五中一维最大池化计算式为ht=max(Hj),其中ht表示长短期记忆层在t时刻的输入句向量连接式为Ht=[ht(1);ht(2);...;ht(n)]。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910901086.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top