[发明专利]一种基于ALBERT和LDA的跨域情感分类方法在审
申请号: | 202111382116.2 | 申请日: | 2021-11-22 |
公开(公告)号: | CN114238627A | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 郑江滨;曹宏业 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06N3/04;G06N3/08 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 金凤 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 albert lda 情感 分类 方法 | ||
本发明公开了一种基于ALBERT和LDA的跨域情感分类方法,首先进行模型训练与数据的预处理,使用训练数据集对ALBERT模型进行训练,得到用于对目标领域数据检测的ALBERT模型,同时,使用目标领域的数据集进行主题模型训练,得到用于文本主题信息提取的LDA模型;随后针对输入的文本信息进行处理,使用ALBERT对该数据进行处理,得到处理后的向量,同时将该文本输入至LDA模型进行主题信息检测,得到文本主题信息,将处理后的向量与文本主题信息进行结合,输入到一个自适应分类器之中进行情感分类,最终输出情感分类标签。本发明实现了多领域文本的分类,避免了扩充目标领域训练数据集的问题,提升了模型的训练时间,减少了空间复杂度。
技术领域
本发明属于自然语言技术领域,具体涉及一种跨域情感分类方法。
背景技术
大规模语言模型已广泛应用于自然语言处理的多类应用之中,语言模型在语义分析,情感分类、问答系统以及机器翻译等领域展现了强大的性能,但是,当目标领域数据与模型的训练数据存在差异时,大规模语言模型的检测效果将会下降,增加目标领域训练数据是一种改进方式,但是手动标记目标领域数据,需要消耗大量的人力成本,并且随着训练数据集的增加,模型的训练参数将会迅速增加,模型训练将会需要更长的时间、更大的内存空间。
随着深度学习的发展,更多的深度学习方法应用在跨域的数据情感分类任务上,在深度神经语言模型BERT的基础上,将文本表示的元数据与知识图进行嵌入结合,联合训练的方法使得该模型在多标签数据集上取得了较好的检测效果。通过对目标领域以及源域的数据进行分析,构建出数据之间的对应关系,从而实现跨域的情感分类。但是当目标域与源域数据差异较大时,对两个领域的数据进行关联关系的建立较为困难,如何将目标域的信息与源域数据进行结合是一个关键问题。
发明内容
为了克服现有技术的不足,本发明提供了一种基于ALBERT和LDA的跨域情感分类方法,首先进行模型训练与数据的预处理,使用训练数据集对ALBERT模型进行训练,得到用于对目标领域数据检测的ALBERT模型,同时,使用目标领域的数据集进行主题模型训练,得到用于文本主题信息提取的LDA模型;随后针对输入的文本信息进行处理,使用ALBERT对该数据进行处理,得到处理后的向量,同时将该文本输入至LDA模型进行主题信息检测,得到文本主题信息,将处理后的向量与文本主题信息进行结合,输入到一个自适应分类器之中进行情感分类,最终输出情感分类标签。本发明实现了多领域文本的分类,避免了扩充目标领域训练数据集的问题,提升了模型的训练时间,减少了空间复杂度。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:模型训练与数据预处理;
处理训练数据集,对训练数据集中的数据进行分词和去除停用词操作;
将处理后的训练数据集用于ALBERT模型的训练,得到用于对目标领域数据检测的ALBERT模型;
使用Amazon提供的无标记训练数据集,进行主题模型训练,训练得到用于文本主题信息提取的LDA模型;
步骤2:对待检测的输入文本,首先进行分词处理,处理后同时输入ALBERT模型进行目标领域数据检测和LDA模型进行主题信息提取;
步骤2-1:ALBERT模型将[SEP]作为分隔符,对输入的分词后的输入文本进分隔处理,特殊字符[CLS]用于下游的分类任务,使用ALBERT最后一层输入的C向量作为句子对的表示:
C=ALBERT(In)∈Rd (1)
其中,In表示输入文本,d表示d维向量;
步骤2-2:使用LDA模型对输入文本进行主题信息提取;
将输入文本数据按词划分成式(2)所示形式:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111382116.2/2.html,转载请声明来源钻瓜专利网。