[发明专利]基于深度学习的词句级短文本分类方法在审
申请号: | 201910901086.8 | 申请日: | 2019-09-23 |
公开(公告)号: | CN110717330A | 公开(公告)日: | 2020-01-21 |
发明(设计)人: | 杨悦;孟宪禹 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 短文本分类 词向量 卷积 向量 分类 自然语言处理技术 卷积神经网络 垃圾电子邮件 循环神经网络 上下文关联 复杂文本 记忆网络 输入词句 特征结合 文本内容 新闻文本 短文本 特征图 停用词 池化 分词 分句 去除 词句 核对 表现 测试 中文 转化 学习 | ||
1.基于深度学习的词句级短文本分类方法,其特征在于,包括:
步骤一:获取待分类的文本数据及标签;
步骤二:处理文本数据,通过Word2Vector训练获得词向量源表与检索词向量源表的词标签表;
步骤三:通过识别尾缀符对文本数据进行分句处理,之后递归的对每个句子进行分词、去除停用词操作,最后通过词标签表检索词向量源表中的词向量来表示词,并根据句内词维数与句子要求进行Padding操作;最终将文本转化为y×x×z的三维张量,其中y为句维数、x为句内词维数、z为词向量维数;
步骤四:使用多卷积核对输入张量进行一维卷积计算,卷积后的特征图高度为H2=(H1-F+2P)/S+1,其中F表示卷积核维度的大小,P表示Padding的尺寸,S表示卷积步长,通过n个卷积核的计算,每个句子最终获得n张一维卷积特征图;
步骤五:使用一维最大池化MaxPooling1D对卷积后的结果进行池化以提取句子的核心特征,池化后每个卷积核计算出的特征图将压缩为一个单一值,每个句子的特征由n个特征图池化后连接得到的n维向量表示,其将作为长短期记忆层某一时序下的输入;
步骤六:通过卷积层与池化层递归的对每个句子进行计算,获得总时序y下长短期记忆层的输入;
步骤七:将长短期记忆层的输出作为输入进入全连接层,用以平展网络的输出,全连接层输出维度为数据的类别数目并将Softmax函数作为分类器,通过计算全连接层的输出实现分类,其计算式为其中,y(i)代表输出层第i个神经元的值,y(k)代表输出层中第k个神经元的值,exp代表以e为底的指数函数。
2.根据权利要求1所述的基于深度学习的词句级短文本分类方法,其特征在于:所述的步骤四中一维卷积计算式为其中Mj表示某一卷积核输入值集合,与分别为卷积权重和偏置。
3.根据权利要求1所述的基于深度学习的词句级短文本分类方法,其特征在于:所述的步骤四中使用一维卷积层对输入进行卷积操作,卷积核大小设置为5,步长为1,数目256个。
4.根据权利要求1所述的基于深度学习的词句级短文本分类方法,其特征在于:所述的步骤五中一维最大池化计算式为ht=max(Hj),其中ht表示长短期记忆层在t时刻的输入句向量连接式为Ht=[ht(1);ht(2);...;ht(n)]。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910901086.8/1.html,转载请声明来源钻瓜专利网。