[发明专利]利用高维表示提高特定属性情感分类准确率方法有效

专利信息
申请号: 201810754022.5 申请日: 2018-07-10
公开(公告)号: CN108984724B 公开(公告)日: 2021-09-28
发明(设计)人: 谢珏;吴含前;李露 申请(专利权)人: 凯尔博特信息科技(昆山)有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F40/289;G06N3/04
代理公司: 暂无信息 代理人: 暂无信息
地址: 215300 江苏省苏州市昆山市*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 利用 表示 提高 特定 属性 情感 分类 准确率 方法
【权利要求书】:

1.一种利用高维表示提高特定属性情感分类准确率方法,其特征在于:包括训练阶段和测试阶段:具体步骤为:

训练阶段:

S1)利用子句切分算法将句子切分为若干子句,将子句中各单词以词向量的形式表示,以单词的词向量与属性词向量拼接后的整体作为深度神经网络模型的输入,所有的未登录词均是在均匀分布U(-0.01,0.01)中进行随机采样初始化的,词向量以及双向长短期记忆神经网络的维度均设置为300,其他超参则根据开发数据集进行相应的调整,得到训练好的深度神经网络模型;

S2)所述深度神经网络模型包括单词编码层、子句编码层和softmax层共3层架构,所述单词编码层用于捕捉子句中各个单词与特定属性的相关性,所述子句编码层将特定属性映射到子句中,所述softmax层用于将评论文本的最终表示s输入softmax分类器中,最终得到该评论文本针对给定的属性的类别概率分布;

S3)所述深度神经网络模型的输入单词序列为(d+d’)维的词向量,其中d表示词向量的维度,d′表示属性词向量的维度,其中d值的大小可以根据实验情况调节;

S4)模型的训练损失函数采用交叉熵损失函数(Cross-Entropy Loss Function),通过端到端(End-to-End)的方式来训练基于高维表示的特定属性情感分类模型;

S5)给定训练数据xt,at,yt,其中xt表示第t个待预测样本,at表示该样本中出现的属性,yt表示待预测样本xt针对特定属性at的真实类别标签;

S6)将基于高维表示的特定属性情感分类模型看做是一个黑盒函数该函数的输出是一个向量,该向量表示的是输入文本属于各个类别标签的概率,训练的目标是最小化损失函数:

上式中M表示训练样本的数目,K表示类别标签的数目,l表示偏置参数L2的正则化;

S7)采用Adagrad优化函数,所有的矩阵和向量的参数均匀分布在中,其中r和c′是矩阵中行数和列数;并且在训练过程中为了避免过度拟合,在Bi-LSTM中采用了Dropout策略;

测试阶段:

S8)将待处理的评论文本输入训练好的深度神经网络模型,得到该评论文本针对特定属性的情感极性。

2.根据权利要求1所述的利用高维表示提高特定属性情感分类准确率方法,其特征在于:子句切分算法具体为通过标点符号和连接词来切分句子:定义了minnum参数来限制子句中至少应该包含的单词数,当且仅当minnum大于指定值的时候才将句子划分为子句;

此外,还定义了一个maxnum参数来保证将每个句子都切分成相同数量的子句数目,此操作的目的在于后续神经网络要求固定数目的子句作为输入;

分隔符包含了标点符号和连接词即“,”,“;”,“and”,“but”,“so”,“especially”,“however”,“then”,“although”,“except”。

3.根据权利要求2所述的利用高维表示提高特定属性情感分类准确率方法,其特征在于:其他超参则根据开发数据集进行相应的调整,具体来说,学习率的初始值设置为0.1,参数的正则化权重设置为10-5,Dropout Rate设置为0.25。

4.根据权利要求3所述的利用高维表示提高特定属性情感分类准确率方法,其特征在于:子句切分算法中将参数minnum设置为3,参数maxnum设置为4,以便从句子中挖掘所有可能的子句,从而使模型在开发数据集上达到最佳性能。

5.根据权利要求4所述的利用高维表示提高特定属性情感分类准确率方法,其特征在于:由单词编码层、子句编码层和softmax层组成的基于高维表示的双向长短期记忆神经网络模型,其具体过程如下:

第一单词编码层,假设评论文本共包含C个子句,其中用ci来表示第i个子句并且每个子句中共包含Ni个单词,Iij则表示出现在第i个子句中的第j个位置的单词,其中j∈[1,Ni];

子句ci中出现的单词用来表示,其中j∈[1,N],这些单词wij=Ew·Iij均被存储在词向量(word embedding)矩阵中,其中这里的d代表的是词向量的维度,V则代表的是词汇;

出现的属性类别(aspect category)由实体(entity)和特征(attribute)两部分构成:

具体地,假设实体字符串e1的长度为L1,将其表示为其中表示的是实体字符串中第n个单词的d维向量表示;

相应的,将特征字符串表示为

通常词向量表示具有线性结构,这使得它在语义层面具有叠加或消减特性,因此可以通过将词向量的各元素相加方法来达到组合单词的目的;

将实体词向量和特征词向量进行相加来得到属性词向量的最终表示:

然后,在单词词向量表示的基础上加入属性词向量来得到每个单词的属性扩充表示:

上式中即的维度为(d+d’),i∈[1,C],j∈[1,Ni],表示向量拼接操作符,C表示子句的个数,Ni表示子句ci中包含的单词个数;

将得到的词向量作为输入,采用双向长短期记忆神经网络(Bi-LSTM)将前向和后向的各单词信息综合起来,以此将词向量矩阵的输入转化为一种新的表示:

Bi-LSTM是指每一个训练序列向前和向后均是一个长短期记忆神经网络(LSTM),而且它们都连接着一个输出层;

这个结构提供给输出层输入序列中每一个点完整的过去和未来的上下文信息;

该Bi-LSTM包含的前向LSTM表示为该神经网络从Ii,1到即从前向后来读取子句ci中的单词,相应的后向LSTM表示为则是从到Ii,1即从后向前来读取子句ci中的单词:

将前向隐层状态和后向隐层状态进行拼接得到了子句中各单词Iij的最终隐层状态表示,该最终隐层状态表示融合了子句中所有跟单词Iij的有关的信息:

最终,经过Mean-Pooling层将子句中各个单词Iij的隐层状态hij进行平均池化,得到子句的最终表示:

第二子句编码层,对于上一步中得到的子句向量ci,仍旧采用一个Bi-LSTM来将这些给定的子句向量进行编码以便融合上下文信息:

与单词编码层相似,通过拼接前向隐层状态和后向隐层状态来得到评论文本中各子句ci的最终隐层状态表示,该最终隐层状态表示融合了评论文本中所有跟子句ci有关的信息:

经过Mean-Pooling层将评论文本中各子句ci的隐层状态hi进行平均池化,得到评论文本的最终表示:

针对第三softmax层,将评论文本的最终表示s输入softmax分类器中,最终得到针对给定的属性,该评论文本的类别概率分布:

o=Wl·s+bl

表示输出,Wl表示权重矩阵,bl表示偏移量;

计算给定句子属于各个类别k∈[1,K]的概率的方法如下:

θ代表所有参数,根据该公式计算出的最高概率的类别标签作为该评论文本的最终类别标签。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于凯尔博特信息科技(昆山)有限公司,未经凯尔博特信息科技(昆山)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810754022.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top