[发明专利]基于词向量和字向量混合模型的文本情感分析方法在审
申请号: | 202010379545.3 | 申请日: | 2020-05-08 |
公开(公告)号: | CN111651593A | 公开(公告)日: | 2020-09-11 |
发明(设计)人: | 余伟阳;黄钰杰;王宝基;李晓华;李辉;张云飞 | 申请(专利权)人: | 河南理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/242;G06F40/289;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 454000 河南*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 向量 混合 模型 文本 情感 分析 方法 | ||
本发明针对目前文本情感分析中情感信息表达不充分、只考虑词语本身而忽略其他文本特征的问题,提出基于词向量和字向量混合模型的文本情感分析方法,包括步骤:首先对中文数据集进行预处理,利用Word2Vec训练词向量和字向量矩阵;然后将词向量和字向量作为输入数据,分别送入卷积神经网络(CNN)和双向长短期记忆网络(BiLSTM)网络中进行特征提取;在其后引入两个注意力层,来学习重要的文本特征;最后将两个通道所提取的文本特征进行合并,使用分类层对输出进行分类。本发明所提方法在中文数据集上具有显著性和优越性。
技术领域
本发明提出基于词向量和字向量混合模型的文本情感分析方法,涉及文本情感分析 领域。
背景技术
近年来,随着互联网产业的快速发展,出现了众多新兴媒体,通过互联网可以获得用户评论,品牌,情感,政治和观点等大量数据,情感分析是一种特殊的文本挖掘工作,从给定的文本中提取人们的态度或情感,目前文本情感分析是自然语言处理(NaturalLanguage Processing,NLP)领域的一个重要研究方向,其针对非结构化信息,挖掘其蕴涵的深层次情 感或倾向,越来越受到学术界和工业界的重视,不同于图像和语音,文本情感分析在许多方 面都有自己的特点。
文本情感分析的主要任务就是对带有感情色彩的文本进行分析、处理、归纳和判断。 目前文本情感分析的方法主要有两种,基于情感词典的方法和基于机器学习的方法,使用基 于机器学习的情感分析技术进行文本分析,虽然取得了不错的效果,但是这些方法不能有效 的表达复杂的函数计算,并需要人工选择数据特征,泛化能力较弱,而深度学习能够从原始 数据中自动学习重要的数据特征,并处理各种复杂任务,在建模、解释、表达能力以及优化 等方面优势明显,将深度学习应用于文本情感分析领域,极大地推进了文本情感分析的研究 与发展。
为了克服传统机器学习和基于情感字典的方法算法的缺陷,很多工作开始利用深度 学习算法来处理NLP任务,循环神经网络(Recurrent Neural Network,RNN)和卷积神经网络(Convolutional Neural Network,CNN)是文本情感分析任务中使用最广泛的网络模型, 但是由于文本中,只考虑单一的词向量对整个文本的情感极性的影响使得文本的语义获取不 充分,而且以上两种神经网络都是学习文本的整体特征,且使用垂直结构的神经网络结构无 法有效而全面的提取更深层次的文本特征。
本发明提出基于词向量和字向量混合模型的文本情感分析方法,构建了基于词向量 和字向量的混合模型(BiLSTM-CNN-Attention),先对中文数据集进行分词和过滤停用词等 预处理,利用Word2Vec训练词向量和字向量矩阵,然后将词向量和字向量作为输入数据, 分别送入卷积神经网络和双向长短期记忆网络(Bi-directional Long and ShortTerm Memory, BiLSTM)中进行特征提取;并在其后引入两个注意力层,来学习重要的文本特征,最后将 两个通道所提取的文本特征进行合并,使用分类层对输出进行分类,该方法相较于一般只考 虑词向量特征的深度学习网络,能够充分地提取文本的局部特征与序列信息,解决语义多层 次的问题,并能够通过注意力机制学习文本的重要信息特征,其正确率在正文文本数据集上 可以达到92.67%。
发明内容
有鉴于此,本发明的主要目的在于将卷积神经网络和双向长短期记忆网络的优势相 结合,将字向量和词向量同时作为模型的输入,并在其后加入注意力层,提取重要的文本信 息特征,提高文本情感分析的正确率。
为了达到上述目的,本发明提出的技术方案为:
基于词向量和字向量混合模型的文本情感分析方法,所述方法包括如下步骤:
步骤1、对中文数据集进行预处理操作,利用Word2Vec同时训练词向量和字向量矩阵;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南理工大学,未经河南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010379545.3/2.html,转载请声明来源钻瓜专利网。