[发明专利]一种基于多尺寸CNN和LSTM模型的蒙古语文本情感分析方法有效
申请号: | 202110533016.9 | 申请日: | 2021-05-17 |
公开(公告)号: | CN113377901B | 公开(公告)日: | 2022-08-19 |
发明(设计)人: | 仁庆道尔吉;尹玉娟;麻泽蕊;李媛;程坤;苏依拉;李雷孝 | 申请(专利权)人: | 内蒙古工业大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36;G06F40/284;G06N3/04;G06N3/08 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 段俊涛 |
地址: | 010080 内蒙古自治区呼*** | 国省代码: | 内蒙古;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 尺寸 cnn lstm 模型 蒙古语 文本 情感 分析 方法 | ||
1.一种基于多尺寸CNN和LSTM模型的蒙古语文本情感分析方法,其特征在于,包括如下步骤:
步骤1:对中文和蒙古语情感文本语料库进行预处理;
所述预处理是使用字节对编码技术对语料进行切分操作,然后利用GloVe模型训练生成词向量,并使用词向量结果贪心地发现未登录词,修正切分结果;
所述利用GloVe训练生成词向量的目标函数J(W)为:
其中,W为词向量矩阵,W∈R|V|*d,|V|表示词的数量,d表示词向量维数;Xij表示词wj在词wi的语境下出现的次数,Wi表示词wi的词向量,Wj表示词wj的词向量,f(Xij)是权重项,用于去除低频项噪声,其表达式如下:
其中,Xmax为Xi中的最大值,Xi表示在词wi的语境下出现的所有的词的次数,Xi=∑jXij;
对于原分词结果Y=w1 w2 … wm,从头开始比较当前词wi的词向量Wi与下一个词wi+1的词向量Wi+1的夹角余弦值,夹角余弦值公式为:
若该夹角余弦值大于预先给定的阈值λ,则认为词wi和词wi+1组成新词,组合后的词向量为二者加和归一化的结果,计算公式为:
Wi=null
利用该新词的词向量继续进行贪心地匹配,直到句子结束,得到修正后的切分结果其中m为原分词结果Y中的词向量的个数,n为修正后的切分结果和的词向量的个数;
步骤2:将经过预处理得到的词转换为动态词向量;
步骤3:由多尺寸CNN网络和mLSTM网络并联组成蒙古语文本情感分析模型;其中多尺寸CNN网络用于有效地捕捉不同位置的情感信息,进而获取文本的局部情感特征;mLSTM用于提取文本序列特征,从而更好地建模长距离语义;在蒙古语文本情感分析模型中采用集成模型的思想,将多尺寸CNN网络和mLSTM网络提取的特征拼接,作为模型最终提取的情感特征;
其中,将拼接得到的特征向量输入到蒙古语文本情感分析模型的全连接层中,使用softmax函数进行概率计算,得到最终的分析结果,判定正面/负面情感;
所述多尺寸CNN网络采用多种不同尺寸的卷积核进行局部情感特征提取,卷积核的宽度等于词向量的维度,利用不同高度的卷积核对文本所对应的词向量矩阵进行多次卷积,得到文本特征,通过卷积核的滑动遍历数据集后,得到n-h+1个特征,并组合成一个特征集合C=[c1 c2 … cn-h+1],其中n是词向量的个数,h是卷积核大小;使用多个卷积核提取文本数据中的多个特征时,若卷积核数量为k,则得到k个特征集合,对卷积层中的每一个特征集合进行最大池化操作选出集合中的最大值作为当前神经元的输出不同尺寸的卷积核提取文本矩阵中不同位置的文本特征,对不同尺寸卷积核输出的特征进行特征融合得到融合特征
所述mLSTM网络通过将当前输入和前一步隐藏层的状态进行多轮交互后再进入LSTM中计算以更好的提取文本的序列特征,其交互公式为:
xl=2σ(Qlhl-1)⊙xl-2,for odd l∈[1…r]
hl=2σ(Rlxl-1)⊙hl-2,for even l∈[1…r]
上式中,x-1=x,为当前时刻的输入;h0=hprev,为上一步LSTM隐藏层的状态;Ql和Rl为随机初始化的矩阵,为减少附加模型参数的数量,Ql和Rl表现为低秩矩阵的乘积;轮数r是一个超参数,如果r=0,则为普通的LSTM;mLSTM接收词向量矩阵之后,利用LSTM单元生成特征向量outputmLSTM=[h1 h2 … hn],其中,h1为第一个LSTM单元的输出,hn为最后一个LSTM单元的输出;
步骤4:采用迁移学习策略将大规模中文情感文本语料作为训练集,并将其训练得到的神经网络参数权重迁移至蒙古语文本情感分析模型中作为初始参数,再利用经过预处理的蒙古语情感文本语料训练模型,得到基于多尺寸CNN和LSTM模型的蒙古语文本情感分析模型;
步骤5:将基于多尺寸CNN和LSTM模型的蒙古语文本情感分析模型的分析结果与单一网络分析方法的分析结果就精确率、召回率和F1值进行对比和评价,以达到提高蒙古语文本情感分析性能的目的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古工业大学,未经内蒙古工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110533016.9/1.html,转载请声明来源钻瓜专利网。