[发明专利]基于环境元嵌入和深度学习的情感倾向性分析方法在审
申请号: | 201910197440.3 | 申请日: | 2019-03-15 |
公开(公告)号: | CN109948158A | 公开(公告)日: | 2019-06-28 |
发明(设计)人: | 王传栋;李智;史宇 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/35;G06N3/04 |
代理公司: | 南京苏科专利代理有限责任公司 32102 | 代理人: | 姚姣阳 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征向量 词向量 文本数据 分词 嵌入 情感倾向性分析 情感倾向 文本语义 文本 句子 卷积神经网络 注意力机制 动态获取 分类函数 神经网络 自动学习 全局 抽取 判定 采集 融合 学习 分类 评论 | ||
1.一种基于环境元嵌入和深度学习的情感倾向性分析方法,其特征在于:包括如下步骤:
S1,采集用于训练的文本数据,对获得的文本数据进行规范化处理和分词处理,生成预处理好的分词文本;
S2,利用word2vec和Glove训练出所述分词文本的词向量,再通过扩展所述分词文本的词向量特征的方式,获得环境元嵌入作为文本语义的词向量表示;
S3,利用BLSTM和动态获取上下文窗口相融合的神经网络,自动学习上下文来抽取情感评论对象;
S4,基于局部注意力机制对具有不同情感语义贡献度的词语进行权值分配,并通过BLSTM训练所述文本语义的词向量,得到句子级特征向量;
S5,通过卷积神经网络训练所述句子级特征向量,得到全局的文本级特征向量;
S6,利用多分类函数Softmax对所述全局的文本级特征向量进行分类,得到所述文本数据的情感倾向。
2.根据权利要求1所述的基于环境元嵌入和深度学习的情感倾向性分析方法,其特征在于:所述步骤S2包括如下步骤:
S21,利用word2vec训练得到所述分词文本的词向量w1,j,利用Glove训练得到所述分词文本的词向量w2,j,其中,j为当前词;
S22,将w1,j和w2,j进行加权计算得到基于word2vec和Glove的环境元嵌入wj,所述wj满足如下关系式:
wj=α1,jw′1,j+α2,jw′2,j,
其中,(i=1,2);hj∈R2m,hj为以w′i,j为输入的BLSTM的第j隐藏层状态向量;a,b为学习参数,a∈R2m,b∈R;
其中,w′i,j=Piwi,j+bi,(i=1,2);Pi表示权值矩阵;bi表示偏置向量;
S23,将所述环境元嵌入wj作为文本语义的词向量表示输入层级神经网络情感分析模型中。
3.根据权利要求2所述的基于环境元嵌入和深度学习的情感倾向性分析方法,其特征在于:所述步骤S3包括如下步骤:
S31,使用最小化负对数似然函数对BLSTM和动态获取上下文窗口相融合模型进行有指导的学习;
S32,使用步骤S2中的所述环境元嵌入作为文本语义的词向量进行BLSTM和动态获取上下文窗口相融合模型的参数的学习,随机初始化参数,随机梯度下降更新参数值,以自动学习上下文来抽取情感评论对象。
4.根据权利要求2所述的基于环境元嵌入和深度学习的情感倾向性分析方法,其特征在于:所述步骤S4包括如下步骤:
S41,使用双向LSTM对步骤S2得到的环境元嵌入wj进行编码,所述编码过程为:
S42,连接前后向LSTM得到隐状态,结合如下公式获得词语的分布式向量:
S43,使用计算各个词向量的权重,其中,表示关联能量,用于量化位置i的输入和位置j的输出之间的关系,hj为BLSTM的第j隐藏层状态向量,为BLSTM的第i隐藏层状态向量,为BLSTM的第k隐藏层状态向量;D为设定的超参数,位置pt为窗口的中心;
S44,使用加权公式对词向量加权求和,得到句子级特征向量。
5.根据权利要求1所述的基于环境元嵌入和深度学习的情感倾向性分析方法,其特征在于:所述步骤S5具体为:将步骤S4得到的句子级特征向量作为卷积神经网络的输入基元,经过卷积层、下采样层、全连接层的向前传播卷积操作训练得到全局的文本级特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910197440.3/1.html,转载请声明来源钻瓜专利网。