[发明专利]基于深度学习的词句级短文本分类方法在审
申请号: | 201910901086.8 | 申请日: | 2019-09-23 |
公开(公告)号: | CN110717330A | 公开(公告)日: | 2020-01-21 |
发明(设计)人: | 杨悦;孟宪禹 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 短文本分类 词向量 卷积 向量 分类 自然语言处理技术 卷积神经网络 垃圾电子邮件 循环神经网络 上下文关联 复杂文本 记忆网络 输入词句 特征结合 文本内容 新闻文本 短文本 特征图 停用词 池化 分词 分句 去除 词句 核对 表现 测试 中文 转化 学习 | ||
基于深度学习的词句级短文本分类方法,属于自然语言处理技术领域。该方法基于词向量技术将词特征与句特征结合以表现复杂文本特征,通过卷积神经网络多个卷积核对单句句内的词向量进行卷积池化并连接全部特征图获得句向量,再将句向量按时序输入长短期记忆网络进行上下文关联以更好的表达文本内容。将待分类短文本数据经分句、分词、去除停用词并转化词向量等处理后输入词句级卷积循环神经网络进行训练,最终可获得短文本分类模型并完成短文本分类任务。该方法在测试的中文垃圾电子邮件分类与新闻文本分类上均有着较好的表现。
技术领域
本发明属于自然语言处理技术领域,具体涉及一种基于深度学习的词句级短文本分类方法。
背景技术
随着计算机数据处理技术的发展,文本分类技术逐渐成熟并得到广泛的应用,其可应用的领域包括情感分析、主题分类、垃圾邮件检测等。而深度学习技术的发展,逐渐突出了卷积神经网络和循环神经网络两大重要的人工神经网络分支。于是,卷积神经网络利用其提取局部特征与有效降低权重参数的特性可较好的应用于计算机视觉的领域;循环神经网络对于前后输入的记忆与关联能力较强,善于处理序列及时间序列问题,因而常常应用于计算机认知科学的领域。
考虑到文本内容的线性逻辑结构,学者们利用循环神经网络擅长处理时序数据的特点将其应用于文本分类中,进而衍生出矩阵向量循环神经网络(MV-RNN)、双向改进循环神经网络(Bi-LSTM)等结构。词向量的发现,使学者们尝试在文本分类中引入卷积神经网络,并提出了单层卷积神经网络(CNN-no static)、字符级的卷积神经网络(ConvNets)等结构。
基于单层网络特征提取的局限性,有学者考虑利用复合网络模型完成深度特征的提取。因此,以Aleksandr Sboev等人为代表的C-RNN的研究者们,提出了一种结合CNN(卷积神经网络)、MLP(多层神经网络)和LSTM(长短期记忆网络)的网络结构应用于文本分类领域。这种结构延伸出了一系列的研究,并实现了英文短文本分类、基于推特内容的交通事件检测模型与中文微博文本的情感分析等任务的处理。
然而,目前的C-RNN研究更多倾向于改变卷积核或循环神经网络,尝试增加特征提取深度来获得更高的分类结果。实际上,很多研究都忽略了将句子层与词层结合研究,进行特征复合来进行复杂特征提取。因此,本发明提出了一种将词特征与句子特征结合的方法,基于词向量获得的词特征构建句子特征来表现短文本语义,进而实现文本的分类。
发明内容
本发明的目的在于提供一种基于深度学习的词句级短文本分类方法,通过构建并训练所提出的词句级卷积循环神经网络模型实现。首先对输入的文本进行预处理操作,之后通过迭代卷积网络对输入文本每个句子中的词进行卷积池化计算提取句内词特征,然后将卷积网络输出的表达每个句子特征的向量依次输入长短期记忆网络进行全局关联,最后经过全连接层输出分类结果。
本发明的目的是这样实现的:
基于深度学习的词句级短文本分类方法,包括如下步骤:
步骤一:获取待分类的文本数据及标签;
步骤二:处理文本数据,通过Word2Vector训练获得词向量源表与检索词向量源表的词标签表;
步骤三:通过识别尾缀符对文本数据进行分句处理,之后递归的对每个句子进行分词、去除停用词操作,最后通过词标签表检索词向量源表中的词向量来表示词,并根据句内词维数与句子要求进行Padding操作;最终将文本转化为y×x×z的三维张量,其中y为句维数、x为句内词维数、z为词向量维数;
步骤四:使用多卷积核对输入张量进行一维卷积计算,卷积后的特征图高度为H2=(H1-F+2P)/S+1,其中F表示卷积核维度的大小,P表示Padding的尺寸,S表示卷积步长,通过n个卷积核的计算,每个句子最终获得n张一维卷积特征图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910901086.8/2.html,转载请声明来源钻瓜专利网。