[发明专利]一种基于图神经网络的特定目标情感分类方法有效
申请号: | 202010379339.2 | 申请日: | 2020-05-07 |
公开(公告)号: | CN111563164B | 公开(公告)日: | 2022-06-28 |
发明(设计)人: | 高正杰;冯翱;宋馨宇 | 申请(专利权)人: | 成都信息工程大学;成都点石瑞达科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06N3/04;G06N3/08 |
代理公司: | 成都智涌知识产权代理事务所(普通合伙) 51313 | 代理人: | 周正辉 |
地址: | 610200 四川省成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 神经网络 特定 目标 情感 分类 方法 | ||
1.一种基于图神经网络的特定目标情感分类方法,其特征在于,
步骤1:采集数据集,所述数据集是公开数据集或通过爬虫技术采集短文本数据自行构造的数据集;
步骤2:若是自行构造的数据集,则对数据集进行人工标注;
步骤3:初始化BERT模型,设置BERT模型参数;
步骤4:利用步骤1或2得到的标注数据集作为步骤3初始化完成后的BERT模型的输入,所述标注数据集中的原始句子s=[w1,…,wi,…,wn]由n个单词组成,其中每个句子包含目标词的个数p不低于1个且少于n个;
步骤5:原始句子s经过分词处理后的序列表示为Sr,其中x0和xn′+1分别表示[CLS]标签和[SEP]标签对应的词向量;
Sr=[x0,x1,x2,…,xi′,…,xn′,xn′+1]
其中,x1到xn′表示句子s经过WordPiece分词后的序列;
将分词后编号为k的目标词表示为Trk,Trk是Sr的子集;
其中,表示分别对应目标词经过分词处理后的每一个子词;i表示编号为k的目标词在句子s中的起始位置,p表示目标词的个数;
步骤6:Sr经过BERT模型的多层传输网络后,取最后一层传输网络中每个目标词对应位置的输出作为目标词的编码TrVeck;
其中,到表示Trk经过传输网络后的输出结果,p表示目标词的个数;
步骤7:将步骤6得到的关于目标词的编码结果TrVeck进行最大池化处理后得到特征向量Vk,将Vk作为图的节点特征输入到图卷积神经网络模型中;
Vk=max{TrVeck,dim=0},Vk∈R1×d
其中,d表示向量的维度;
步骤8:构造网络拓扑图G,并计算邻接矩阵A和度矩阵D;
步骤9:利用邻接矩阵A、对称归一化拉普拉斯和随机游走归一化拉普拉斯三种方式来获取所述网络拓扑图G中节点的不同特征,即图拓扑结构特征,第l+1层节点的特征由第l层节点表示,提取图拓扑结构特征的处理规则是一个关于邻接矩阵A的函数f(A),函数f(A)有三种形式,分别如下:
hl+1=σ(f(A)·hl·Wl+bl)
f1(A)=A
f2(A)=D-1A
f3(A)=D-1/2AD-1/2
其中,hl表示图卷积神经网络第l层的特征,W是第l层特征hl的权重矩阵,bl表示图卷积神经网络第l层的偏置,W和b都是学习的权重参数,σ是一个非线性激活函数;
步骤10:将步骤9获取到的三种图拓扑结构特征以及之前每一层图卷积层的输出结果进行拼接得到融合特征H,将融合特征H通过一个全连接层进行降维,再接入softmax函数进行第一阶段的情感极性分类,输出的是在每一个极性类别上的概率值并计算得到相应的损失函数值S1;
步骤11:利用步骤10提取到的融合特征H,进行第一阶段的关系分类,预测目标主体两两之间的关系,目标主体间的关系r包括第一关系r1、第二关系r2和第三关系r3,结合交叉熵(cross-entropy)计算第一阶段的关系分类损失函数值R1;
步骤12:对所述第一关系r1、所述第二关系r2和所述第三关系r3构造第一关系图、第二关系图和第三关系图,每个关系图中节点两两相连,边的权重为两个节点在关系r下的概率值Pr(ta,tb);
步骤13:第二阶段的图卷积计算公式如下,分别在三种关系图上进行图卷积操作后相加得到特征再接一个softmax函数进行第二阶段的情感极性分类,结合交叉熵(cross-entropy)计算得到相应的损失函数值S2,特征的计算公式如下:
其中,其中为第二阶段学习到的权重参数,是第二阶段的偏置,和分别表示目标主体ta和目标主体tb经过第二阶段提取到的特征;
步骤14:利用步骤13提取到的特征进行第二阶段的关系分类,预测目标主体两两之间的关系,结合交叉熵(cross-entropy)计算第二阶段的关系分类损失函数值R2;
步骤15:对两个阶段的损失函数值S1和S2加权求和作为最终整个模型的损失函数值,计算公式如下:
Lossall=(S1+R1)+β(S2+R2)
其中,β为权重系数;
步骤16:将损失函数值Lossall进行可视化显示,不断迭代步骤6-16,观察训练模型得到的损失函数值趋于稳定不再下降时,训练结束,保存训练好的模型;
步骤17:利用训练完成的模型对未知分类标签的目标主体进行情感标签的识别,预测句子中指定目标的情感极性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都信息工程大学;成都点石瑞达科技有限公司,未经成都信息工程大学;成都点石瑞达科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010379339.2/1.html,转载请声明来源钻瓜专利网。