[发明专利]一种基于多尺寸CNN和LSTM模型的蒙古语文本情感分析方法有效
申请号: | 202110533016.9 | 申请日: | 2021-05-17 |
公开(公告)号: | CN113377901B | 公开(公告)日: | 2022-08-19 |
发明(设计)人: | 仁庆道尔吉;尹玉娟;麻泽蕊;李媛;程坤;苏依拉;李雷孝 | 申请(专利权)人: | 内蒙古工业大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36;G06F40/284;G06N3/04;G06N3/08 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 段俊涛 |
地址: | 010080 内蒙古自治区呼*** | 国省代码: | 内蒙古;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 尺寸 cnn lstm 模型 蒙古语 文本 情感 分析 方法 | ||
一种基于多尺寸CNN和LSTM模型的蒙古语文本情感分析方法,对中文和蒙古语情感文本语料库进行预处理;将经过预处理得到的词转换为动态词向量;由多尺寸CNN网络和mLSTM网络并联组成蒙古语文本情感分析模型;将二者提取的特征拼接作为模型最终提取的情感特征;采用迁移学习策略将大规模中文情感文本语料作为训练集,并将训练得到的神经网络参数权重迁移至蒙古语文本情感分析模型中作为初始参数,利用预处理的蒙古语情感文本语料训练得到基于多尺寸CNN和LSTM模型的蒙古语文本情感分析模型;将该模型的分析结果与单一网络分析方法的分析结果就精确率、召回率和F1值进行对比和评价,达到提高蒙古语文本情感分析性能的目的。
技术领域
本发明属于人工智能技术领域,特别涉及一种基于多尺寸CNN和LSTM 模型的蒙古语文本情感分析方法。
背景技术
随着互联网技术的快速发展,越来越多的人开始在诸如微博、论坛、影视网站、购物网站等平台发表各种言论,以此来分享自己的心情、观点和意见。并且用户发表的这些内容可能包含不同的感情色彩:有积极的或是消极的;支持的亦或是反对的。情感分析的核心是将一段文本所表达的情感分为正向和负向两类,其研究价值在商品评论及推荐、舆情监控、信息预测等方面已经得到了充分的体现。
随着人工智能的崛起,深度学习方法得到了广泛的关注,因其模型具有强大的特征学习能力,所以逐渐成为了解决情感分类问题的重要方法。但对于蒙古语这样的小语种来说,现有的文本情感分析方法存在以下三点不足。其一,由于蒙古语词汇丰富形态变化多,就造成了在蒙古语文本情感分析过程中出现了严重的未登录词现象,而大量未登录词的存在严重影响情感分析的准确率。其二,深度学习作为一种数据驱动的方法,只有当训练语料库达到一定的要求,深度学习模型才会表现出较好的分析效果。但可以收集到的蒙古语语料资源相对较少,因此无法满足深度神经网络模型训练的要求。其三,目前单一的神经网络模型在解决文本情感分析时不具有很好的实时性,不能同时提取文本的局部和全局信息,导致分类效果不佳。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于多尺寸CNN和LSTM模型的蒙古语文本情感分析方法,具有以下三个特点:第一,将BPE技术和词向量修正方法结合,更好的缓解因蒙古语语法的复杂性而出现的未登录词问题;第二,将提取局部特征的多尺寸CNN网络和提取文本序列特征的mLSTM网络融合,以提高蒙古语文本情感分析的质量;第三,采用迁移学习策略将大量中文情感文本语料训练得到网络参数权重迁移至蒙古语文本情感分析模型中,再利用蒙古语情感文本语料训练得到蒙古语文本情感分析模型,从而解决蒙古语语料库不足的问题,达到提升蒙古语文本情感分析性能的目标。
为了实现上述目的,本发明采用的技术方案是:
一种基于多尺寸CNN和LSTM模型的蒙古语文本情感分析方法,包括如下步骤:
步骤1:对中文和蒙古语情感文本语料库进行预处理;
步骤2:将经过预处理得到的词转换为动态词向量;
步骤3:由多尺寸CNN网络和mLSTM网络并联组成蒙古语文本情感分析模型;其中多尺寸CNN网络用于有效地捕捉不同位置的情感信息,进而获取文本的局部情感特征;mLSTM用于提取文本序列特征,从而更好地建模长距离语义;在蒙古语文本情感分析模型中采用集成模型的思想,将多尺寸CNN 网络和mLSTM网络提取的特征拼接,作为模型最终提取的情感特征;
步骤4:采用迁移学习策略将大规模中文情感文本语料作为训练集,并将其训练得到的神经网络参数权重迁移至蒙古语文本情感分析模型中作为初始参数,再利用经过预处理的蒙古语情感文本语料训练模型,得到基于多尺寸CNN 和LSTM模型的蒙古语文本情感分析模型;
步骤5:将基于多尺寸CNN和LSTM模型的蒙古语文本情感分析模型的分析结果与单一网络分析方法的分析结果就精确率、召回率和F1值进行对比和评价,以达到提高蒙古语文本情感分析性能的目的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古工业大学,未经内蒙古工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110533016.9/2.html,转载请声明来源钻瓜专利网。