[发明专利]一种基于注意力机制和特征强化融合的中文文本分类方法在审
申请号: | 201810467249.1 | 申请日: | 2018-05-16 |
公开(公告)号: | CN108717439A | 公开(公告)日: | 2018-10-30 |
发明(设计)人: | 谢金宝;侯永进;马俊杰;梁欣涛;王玉静;王滨生 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06N3/04;G06K9/62 |
代理公司: | 哈尔滨市伟晨专利代理事务所(普通合伙) 23209 | 代理人: | 陈润明 |
地址: | 150080 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中文文本 注意力机制 特征强化 融合 文本特征 分类模型 分类 卷积神经网络 数据挖掘技术 记忆网络 算法模型 特征差异 注意力 | ||
本发明一种基于注意力机制和特征强化融合的中文文本分类方法属于数据挖掘技术领域;所述一种基于注意力机制和特征强化融合的中文文本分类方法中提出一种基于注意力机制、长短期记忆网络与卷积神经网络的特征强化融合中文文本分类模型和特征差异强化注意力算法模型;特征强化融合中文文本分类模型,以双层LSTM和CNN模块依次对注意力机制提取的文本特征进行强化融合,不断增强所提取文本特征的丰富程度和,使其包含的文本特征更加全面更加细致,从而提高了模型对中文文本特征的识别能力。
技术领域
本发明一种基于注意力机制和特征强化融合的中文文本分类方法属于数据挖掘技术领域。
背景技术
随着Internet应用的普及,互联网上电子文档数量正在高速增长;为从海量电子文档中快速、准确、全面的挖掘有效信息,近年来,文本分类技术得到了人们的广泛关注;随着中文信息越来越丰富,中文信息的利用率也越来越大,因此对中文文本进行自动分类,具有非常重要的现实意义。
在自然语言处理领域中,通过对基于神经网络的人工智相关算法模型进行设计与改进,使提出的算法模型更加契合具体数据集的语体特点与文本语料结构以及其配套应用场景对算法模型性能的需求,是人工智能领域的研究热点之一;注意力机制,通过对输入神经网络的中文文本向量的语义编码生成并配置以不同的注意力权重,在不损失文本信息的基础上,突出重点内容在中文文本特征识别过程中所发挥的作用。因此,基于注意力机制构建的字符级问答系统具有较好的性能;但是其处理粒度仅为字符级较为单一,如果能综合考虑词级和句子级粒度的文本产生的注意力,特征会更丰富。
在中文文本长度相对较长的情况下,文本分类会存在问题,文本中隐含有重要文本特征信息的文本组成元素在文本中的位置分布不均匀;注意力机制可以体现出中文文本中不同文本元素在文本识别过程中所发挥作用的大小,为重要的文本元素配以更大的权重,但是由于是基于神经网络迭代训练而得出学习到的权重矩阵,是一个神经网络不断学习的过程,其间并不能保证所有的权重都配置得合适,可能会导致特征提取的不够充分或提取的特征包含的中文文本深层语义不够全面。
发明内容
针对上述问题,本发明公开了一种基于注意力机制和特征强化融合的中文文本分类方法,所述一种基于注意力机制和特征强化融合的中文文本分类方法中提出一种基于注意力机制、长短期记忆网络与卷积神经网络的特征强化融合中文文本分类模型和特征差异强化注意力算法模型;特征强化融合中文文本分类模型,以双层LSTM和CNN模块依次对注意力机制提取的文本特征进行强化融合,不断增强所提取文本特征的丰富程度和,使其包含的文本特征更加全面更加细致,从而提高了模型对中文文本特征的识别能力。
本发明的目的是这样实现的:
一种基于注意力机制和特征强化融合的中文文本分类方法,包括以下步骤:
步骤a,整理原始中文文本语料,将所述原始中文文本语料进行分词并预训练词向量字典,进行文本预处理;
步骤b,把将中文文本语料预处理成基于词条的N维向量;对预处理后文本进行特征选择,组成文本数据集的特征空间;
步骤c,所述原始中文文本语料经过预处理后进入神经网络模块进行训练和测试前,先存入嵌入层的嵌入矩阵中,每一行的表示形式为一篇文本文档的向量表示形式;
步骤d,将所述嵌入层中存储的预处理后的中文文本语料,导入注意力机制模块的注意力机制权重模型、双层LSTM神经网络层和CNN模块中;
步骤e,所述双层LSTM在所述嵌入层中进行数据特征提取操作,将所述双层LSTM提取的特征作为特征信息,对所述注意力机制权重模型在所述嵌入层中提取的数据特征进行强化处理操作;强化处理操作采用相加融合方式,对中文文本不同卷积核尺寸的文本粒度特征采用所述CNN模块进行处理;
步骤f,将所述相加融合和所述CNN模块中输出的不同维度数据,进行拼接融合处理;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810467249.1/2.html,转载请声明来源钻瓜专利网。