[发明专利]一种面向Twitter观点分类的情感增强词嵌入学习方法在审
申请号: | 201710117139.8 | 申请日: | 2017-03-01 |
公开(公告)号: | CN106980650A | 公开(公告)日: | 2017-07-25 |
发明(设计)人: | 熊蜀峰;吕琼帅;李玮瑶;彭伟国;王魁祎 | 申请(专利权)人: | 平顶山学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06N3/04 |
代理公司: | 西安铭泽知识产权代理事务所(普通合伙)61223 | 代理人: | 潘宏伟 |
地址: | 467000 河南省*** | 国省代码: | 河南;41 |
权利要求书: | 暂无信息 | 说明书: | 暂无信息 |
摘要: | 本发明提供了一种面向Twitter观点分类的情感增强词嵌入学习方法,涉及计算机技术领域,当同时建模词级别n‑gram和极性信息时,本发明的方法不仅建模tweet文档级别的情感极性信息,还集成了词级别情感信息,并自然地将词级别输入卷积后作为tweet级别的输入。当使用学习到的词嵌入到Twitter观点极性分类任务中,在标准的数据集上的实验结果表明本发明的方法胜过目前的同类方法。 | ||
搜索关键词: | 一种 面向 twitter 观点 分类 情感 增强 嵌入 学习方法 | ||
【主权项】:
一种面向Twitter观点分类的情感增强词嵌入学习方法,其特征在于,该方法包括:输入tweetD包含n个上下文窗口c,将每一个所述上下文窗口c输入至一个共享单元,所述共享单元的词嵌入维度是d,隐藏层维度是h,每个所述共享单元均包含一个词嵌入层和一个线性层,每一个所述上下文窗口c中具有t个词,将所述上下文窗口c输入至所述词嵌入层后,输出是:xi+1:i+t=xi+1⊕xi+2⊕...⊕xi+t]]>其中,xi+1,xi+2,...,xi+t i≤n表示第i个所述上下文窗口c中的t个词,将所述词嵌入层的输出xi+1:i+t输入至所述线性层,得到词嵌入向量:ei=f(W11*xi+1:i+t+b11)]]>其中,f()表示线性函数,W11∈R(t*d)×h和为所述线性层的参数,R为实数空间,其上标表示空间维度,*表示数值相乘,×表示维度叠加;所述共享单元输出的词嵌入向量ei经过左子网络的激活层输出a1=hTanh(ei),然后将a1经过两个线性变换处理后分别得到n‑gram预测分值和词级别的情感预测分值:fngm=W21*a1]]>fws=W31*a1]]>其中,fngm为n‑gram预测分值,fws为词级别的情感预测分值,和均为所述左子网络的参数;在模型训练时,输入所述上下文窗口c和其变异体到左子网络,因此词级别的损失函数通过下式计算:loss1(c,c~)=α*lossngm(c,c~)+(1-α)*lossws(c)]]>lossngm(c,c~)=max(0,1-fngm(c)+fngm(c~))]]>lossws(c)=max(0,1‑φ(0)fws(c)+φ(1)fws(c))其中,α是线性插值权重,φ(·)是所述上下文窗口c的中心词的观点极性指示函数:φ(j)=1ify[j]=1-1ify[j]=0]]>其中y是词的标准情感标签,当使用2维向量来表示y,即负面极性表示为[1,0],正极性表示为[0,1];将n个所述共享单元输出的词嵌入向量e1,e2,...,ei,...,en输入至右子网络,所述词嵌入向量e1,e2,...,ei,...,en组成的集合用e表示,对e分别采用max‑pooling、average‑pooling和min‑pooling三种池化方法处理后分别获得固定维度的特征max(e)、avg(e)和min(e),对该些特征经过线性层进行线性处理后得到:a2=W12*[max(e)⊕avg(e)⊕min(e)]+b22]]>其中,W12∈Rt*h×h和为线性层的参数,经过softmax层预测得到的tweet观点极性为:fds=softmax(a2)因此,tweet级别的损失函数为:loss2(D)=-Σk={0,1}gk(D)logfkds]]>其中,g(·)是tweet在[positive,negative]上的黄金标准情感分布;根据所述词级别的损失函数和tweet级别的损失函数计算最终优化目标的总体分数:loss=β*loss1(c,c~)+(1-β)*loss2(D)]]>其中,β为词级别和tweet级别之间的权重调和系数;以所述最终优化目标的总体分数为训练目标,采用基于词典资源和大规模的距离监督tweet语料训练所述左子网络和右子网络,得到修正后的词嵌入向量;使用有监督学习算法对使用所述修正后的词嵌入向量表示的tweet进行极性分类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平顶山学院,未经平顶山学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710117139.8/,转载请声明来源钻瓜专利网。