[发明专利]利用高维表示提高特定属性情感分类准确率方法有效
申请号: | 201810754022.5 | 申请日: | 2018-07-10 |
公开(公告)号: | CN108984724B | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | 谢珏;吴含前;李露 | 申请(专利权)人: | 凯尔博特信息科技(昆山)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06N3/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 215300 江苏省苏州市昆山市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种利用高维表示提高特定属性情感分类准确率方法,该方法从单词、子句及句子三个不同的维度,利用评论文本及其特定属性信息构建多层次、高维度的深度神经网络模型。首先本发明提出了一种子句切分的算法将评论文本切分成若干个子句;其次利用多个双向长短期记忆神经网络将每个子句中的单词进行编码,以此得到各子句的表示;最后采用一个双向长短期记忆神经网络对上一步中得到的各子句的表示进行编码以此来得到整个句子的最终表示。通过上述方法从单词、子句、句子三个不同的维度捕捉与特定属性更为相关的信息,最终提高特定属性的情感分类的准确率。 | ||
搜索关键词: | 利用 表示 提高 特定 属性 情感 分类 准确率 方法 | ||
【主权项】:
1.一种利用高维表示提高特定属性情感分类准确率方法,其特征在于:包括训练阶段和测试阶段:具体步骤为:训练阶段:S1)利用子句切分算法将句子切分为若干子句,将子句中各单词以词向量的形式表示,以单词的词向量与属性词向量拼接后的整体作为深度神经网络模型的输入,所有的未登录词均是在均匀分布U(‑0.01,0.01)中进行随机采样初始化的,词向量以及双向长短期记忆神经网络的维度均设置为300,其他超参则根据开发数据集进行相应的调整,得到训练好的深度神经网络模型;S2)所述深度神经网络模型包括单词编码层、子句编码层和softmax层共3层架构,所述单词编码层用于捕捉子句中各个单词与特定属性的相关性,所述子句编码层将特定属性映射到子句中,所述softmax层用于将评论文本的最终表示s输入softmax分类器中,最终得到针对给定的属性该评论文本的类别概率分布;S3)所述深度神经网络模型的输入单词序列为(d+d’)维的词向量,其中d表示词向量的维度,d′表示属性词向量的维度,其中d值的大小可以根据实验情况调节;S4)模型的训练损失函数采用交叉熵损失函数(Cross‑Entropy Loss Function),通过端到端(End‑to End)的方式来训练基于高维表示的特定属性情感分类模型;S5)给定训练数据xt,at,yt,其中xt表示第t个待预测样本,at表示该样本中出现的属性,yt表示待预测样本xt针对特定属性at的真实类别标签;S6)将基于高维表示的特定属性情感分类模型看做是一个黑盒函数
该函数的输出是一个向量,该向量表示的是输入文本属于各个类别标签的概率,训练的目标是最小化损失函数:
上式中M表示训练样本的数目,K表示类别标签的数目,l表示偏置参数L2的正则化;S7)采用Adagrad优化函数,所有的矩阵和向量的参数均匀分布在![]()
中,其中r和c′是矩阵中行数和列数;并且在训练过程中为了避免过度拟合,在Bi‑LSTM中采用了Dropout策略;测试阶段:S8)将待处理的评论文本输入训练好的深度神经网络模型,得到针对特定属性该评论文本的情感极性。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于凯尔博特信息科技(昆山)有限公司,未经凯尔博特信息科技(昆山)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810754022.5/,转载请声明来源钻瓜专利网。
- 上一篇:创建索引、数据查询方法、装置及计算机设备
- 下一篇:一种跨网闸数据同步方法