[发明专利]一种基于注意力机制和特征强化融合的中文文本分类方法在审
申请号: | 201810467249.1 | 申请日: | 2018-05-16 |
公开(公告)号: | CN108717439A | 公开(公告)日: | 2018-10-30 |
发明(设计)人: | 谢金宝;侯永进;马俊杰;梁欣涛;王玉静;王滨生 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06N3/04;G06K9/62 |
代理公司: | 哈尔滨市伟晨专利代理事务所(普通合伙) 23209 | 代理人: | 陈润明 |
地址: | 150080 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明一种基于注意力机制和特征强化融合的中文文本分类方法属于数据挖掘技术领域;所述一种基于注意力机制和特征强化融合的中文文本分类方法中提出一种基于注意力机制、长短期记忆网络与卷积神经网络的特征强化融合中文文本分类模型和特征差异强化注意力算法模型;特征强化融合中文文本分类模型,以双层LSTM和CNN模块依次对注意力机制提取的文本特征进行强化融合,不断增强所提取文本特征的丰富程度和,使其包含的文本特征更加全面更加细致,从而提高了模型对中文文本特征的识别能力。 | ||
搜索关键词: | 中文文本 注意力机制 特征强化 融合 文本特征 分类模型 分类 卷积神经网络 数据挖掘技术 记忆网络 算法模型 特征差异 注意力 | ||
【主权项】:
1.一种基于注意力机制和特征强化融合的中文文本分类方法,其特征在于,包括以下步骤:步骤a,整理原始中文文本语料,将所述原始中文文本语料进行分词并预训练词向量字典,进行文本预处理;步骤b,把将中文文本语料预处理成基于词条的N维向量;对预处理后文本进行特征选择,组成文本数据集的特征空间;步骤c,所述原始中文文本语料经过预处理后进入神经网络模块进行训练和测试前,先存入嵌入层的嵌入矩阵中,每一行的表示形式为一篇文本文档的向量表示形式;步骤d,将所述嵌入层中存储的预处理后的中文文本语料,导入注意力机制模块的注意力机制权重模型、双层LSTM神经网络层和CNN模块中;步骤e,所述双层LSTM在所述嵌入层中进行数据特征提取操作,将所述双层LSTM提取的特征作为特征信息,对所述注意力机制权重模型在所述嵌入层中提取的数据特征进行强化处理操作;强化处理操作采用相加融合方式,对中文文本不同卷积核尺寸的文本粒度特征采用所述CNN模块进行处理;步骤f,将所述相加融合和所述CNN模块中输出的不同维度数据,进行拼接融合处理;步骤g,将所述拼接融合处理后数据导入全连接层中;步骤h,将所述全连接层中处理后数据导入softmax分类器进行归一化处理,输出样本属于各个类别的概率,以最大值对应的类别,作为文本类别识别的结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810467249.1/,转载请声明来源钻瓜专利网。