[发明专利]一种改进训练方式的BERT短文本情感分析方法在审
申请号: | 202210354141.8 | 申请日: | 2022-04-06 |
公开(公告)号: | CN114757182A | 公开(公告)日: | 2022-07-15 |
发明(设计)人: | 魏泽阳;张文博;姬红兵 | 申请(专利权)人: | 西安电子科技大学;陕西方寸积慧智能科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 段俊涛 |
地址: | 710071*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 改进 训练 方式 bert 文本 情感 分析 方法 | ||
一种改进训练方式的BERT短文本情感分析方法,构建短文本情感分析模型,包括输入层、语义特征提取层、池化层、全连接层和分类输出层;采集数据集并预处理;在输入层编码得到输入文本的词向量表示;在词向量中添加扰动得到对抗样本;语义特征提取层基于BERT模型,对对抗样本进行语义特征提取,输出特征向量;经池化层、全连接层后,利用Softmax进行归一化处理从而得到最终的情感极性分类结果;本发明采用对抗训练方式训练该短文本情感分析模型,解决了因中文一词多义、网络新词等造成的情感错分,以及传统模型无法在提取上下文信息的同时提取局部关键信息的问题,增强了模型鲁棒性,同时缓解了模型训练效率差、模型性能退化的问题。
技术领域
本发明属于人工智能技术领域,涉及利用人工智能进行自然语言处理,特别涉及一种改进训练方式的BERT短文本情感分析方法。
背景技术
随着信息技术的快速发展及社交网络的崛起,越来越多的网民在网络上发表观点和看法,微博、脸书、推特等互联网平台每天都会产生海量的文字评论,挖掘并分析其潜在的情感倾向对辅助政府、企业等团体机构进行决策有着重要的价值。
情感分析技术的核心在于情感分类模型的构建,传统的情感分析方法包括基于情感词典的方法和机器学习的方法。基于情感词典的情感分析方法指将预处理后的词汇与情感词典中的词汇进行匹配,然后根据词匹配程度计算情感得分并判断情感极性该方法主要依赖于情感词典的构建,由于现阶段网络快速发展,信息更新速度加快,网络上不断产生新词,若词典不能及时更新会造成情感倾向误判,导致分析结果出现偏差,因此需要不断地扩充情感词典来满足对情感分析的需要,对于情感词典的扩充需要花费大量的时间和资源。
利用机器学习的方法构建模型指通过特定数据训练模型,基于模型预测结果的一种方法,常用的模型有朴素贝叶斯NB、支持向量机SVM、最大熵ME等。基于机器学习构建情感分析模型,通过大量有标注或者无标住的语料,使用统计机器学习算法,抽取特征,最后输出对文本的情感极性判断。尽管使用机器学习的方法在一定程度上减轻了人工处理的工作量,但是在人工构建特征中耗费了大量时间和精力、且模型泛化能力较差。
基于深度学习的情感分析方法目前使用最为广泛,深度学习可以通过文本表示来抽取文本深层次的特征,很好地学习到文本特征,提高分类的准确性。关于文本表示,采用Word2Vec或Glove训练出词向量,然后将词向量作为神经网络模型的输入,利用深度学习方法学习深层的语义特征,常用的深度学习模型有Text-CNN、RNN以及LSTM等。但是Word2VEc和Glove模型所训练的词向量均为静态词向量,静态词向量可以将一个样本的特征词都变为维度相同的向量,其训练的词向量均是固定的,即每个词仅有一个与之对应的数字向量,因此难以解决中文词语一词多义的现象和丰富语义表达的网络新词,这就使得传统词嵌入方式非常不适合现阶段的网络评论情感分类任务。
BERT支持可迁移学习的动态词向量模型,训练阶段将BERT的整个模型进行迁移学习,生成文本在特定场景下的词向量,该方法很好的解决了传统静态词向量无法解决中文一词多义的问题以及网络不断出现的新词问题。
深度学习模型对于精心设计好的输入样本是脆弱的,这种样本被称为对抗样本。对抗样本是指在原始样本添加一些人眼无法察觉的扰动,致使模型作出错误判断,处理因未知对抗样本造成的模型脆弱性,增强模型鲁棒性变成了如今的一项重要任务。
在多分类问题中,类别平衡的数据集的目标标签是均匀分布的。若某类目标的样本相比其他类在数量上占据极大优势,则可以将该数据集视为不平衡的数据集。这种不平衡将导致两个问题:训练效率低下、模型性能退化。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学;陕西方寸积慧智能科技有限公司,未经西安电子科技大学;陕西方寸积慧智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210354141.8/2.html,转载请声明来源钻瓜专利网。