[发明专利]基于词向量和字向量混合模型的文本情感分析方法在审
申请号: | 202010379545.3 | 申请日: | 2020-05-08 |
公开(公告)号: | CN111651593A | 公开(公告)日: | 2020-09-11 |
发明(设计)人: | 余伟阳;黄钰杰;王宝基;李晓华;李辉;张云飞 | 申请(专利权)人: | 河南理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/242;G06F40/289;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 454000 河南*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 向量 混合 模型 文本 情感 分析 方法 | ||
1.基于词向量和字向量混合模型的文本情感分析方法,其特征在于,所述文本情感分析方法包括以下步骤:
步骤1、对中文数据集进行预处理操作,利用Word2Vec同时训练词向量和字向量矩阵;
步骤2、将训练好的词向量矩阵x1:l和字向量矩阵w1:l作为双向长短期记忆网络的输入特征,学习文本的序列特征,并接入注意力层优化特征向量;
步骤3、将训练好的词向量矩阵x1:l和字向量矩阵w1:l作为卷积神经网络输入特征,进行卷积、池化操作学习文本的局部特征,并接入注意力机制获取文本的深层次特征;
步骤4、将引入注意力机制的卷积神经网络层提取到的特征sc和引入注意力机制的双向长短期记忆网络层提取到的特征向量sl进行融合,输入softmax分类层进行分类,积极为1,消极为0,并与文本标签进行对比计算,得出文本分类正确率。
2.根据权利要求1所述的基于词向量和字向量混合模型的文本情感分析方法,其特征在于,步骤1中,对中文数据集进行预处理操作,利用Word2Vec同时训练词向量和字向量矩阵,包括如下步骤:
步骤11、对文本进行预处理工作提升词向量的质量,包括去停用词,分词过程;
步骤12、词向量训练工作使用Google公司开源的Word2vec工具,使用Word2vec工具中的Skip-gram模型对字向量和词向量进行训练,将预处理过的语料训练成128维度的字向量和词向量,词向量矩阵和字向量矩阵分别表示为:
其中,代表连接运算符,l代表句子的长度,取定值为60,x1:l代表60×128的词向量矩阵,w1:l代表60×128的字向量矩阵。
3.根据权利要求1所述的基于词向量和字向量混合模型的文本情感分析方法,其特征在于,步骤2中,将训练好的词向量矩阵x1:l和字向量矩阵w1:l作为BiLSTM的输入特征,学习文本的序列特征,并接入注意力层优化特征向量,包括如下步骤:
步骤21、将转换过的词向量矩阵x1:l和字向量矩阵w1:l分别输入到双向长短期记忆网络进行训练,使用双向长短期记忆网络进行特征提取,获得文本的序列特征,提高网络的收敛性,得到双向长短期记忆网络字向量的隐层状态hwi和词向量的隐层状态hxi,将转换过的词向量矩阵x1:l输入到双向长短期记忆网络进行训练,得双向长短期记忆网络词向量的隐层状态hxi,公式表达为:
ft=σ(wfx1:l+ufht-1+bf)
it=σ(wix1:l+uiht-1+bi)
ot=σ(wox1:l+uoht-1+bo)
hxt=otΘtanh(ct)
其中,σ是sigmoid激活函数,输出在[0,1]之间,决定有多少信息可以通过,tanh是双曲正切函数,Θ运算符号代表矩阵相乘操作,遗忘门ft决定“忘记”在反向传播中不重要的信息,输入门it决定了待更新信息的多少,输出门ot决定从当前细胞状态ct输出到隐藏层状态hxt的内容。当前的细胞状态ct就是将过去的细胞状态ct-1和新的记忆进行合并,w(i)和u(i)代表数据处理过程中的权重,将转换过的字向量矩阵w1:l输入到双向长短期记忆网络进行训练,得到双向长短期记忆网络字向量的隐层状态hwi,公式表达为:
ft=σ(wfw1:l+ufht-1+bf)
it=σ(wiw1:l+uiht-1+bi)
ot=σ(wow1:l+uoht-1+bo)
hwt=otΘtanh(ct)
其中,σ是sigmoid激活函数,输出在[0,1]之间,决定有多少信息可以通过,tanh是双曲正切函数,Θ运算符号代表矩阵相乘操作,遗忘门ft决定“忘记”在反向传播中不重要的信息,输入门it决定了待更新信息的多少,输出门ot决定从当前细胞状态ct输出到隐藏层状态hwt的内容。当前的细胞状态ct就是将过去的细胞状态ct-1和新的记忆进行合并,w(i)和u(i)代表数据处理过程中的权重;
步骤22、将步骤21得到双向长短期记忆网络的字向量的隐层状态hwi和词向量的隐层状态hxi使用点乘的方式进行融合;:
hi=[hwi·hxi]
步骤23、将双向长短期记忆网络中的隐藏层状态hi非线性变换为ui,
ui=tanh(wwhi+bw)
其中,ww和bw表示的是权重矩阵和权值向量;
步骤24、使用softmax函数对ui进行归一化操作,得到注意力矩阵,即双向长短期记忆网络的输出权重系数αi;
其中,uw表示的是初始化权重矩阵;
步骤25、将步骤24得到的双向长短期记忆网络层的输出权重系数αi与步骤22得到的隐层状态hi相乘,得到引入注意力机制的双向长短期记忆网络层提取的特征向量sl;
其中,αi表示的是输出权重系数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南理工大学,未经河南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010379545.3/1.html,转载请声明来源钻瓜专利网。