[发明专利]一种基于ALBERT和LDA的跨域情感分类方法在审
申请号: | 202111382116.2 | 申请日: | 2021-11-22 |
公开(公告)号: | CN114238627A | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 郑江滨;曹宏业 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06N3/04;G06N3/08 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 金凤 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 albert lda 情感 分类 方法 | ||
1.一种基于ALBERT和LDA的跨域情感分类方法,其特征在于,包括如下步骤:
步骤1:模型训练与数据预处理;
处理训练数据集,对训练数据集中的数据进行分词和去除停用词操作;
将处理后的训练数据集用于ALBERT模型的训练,得到用于对目标领域数据检测的ALBERT模型;
使用Amazon提供的无标记训练数据集,进行主题模型训练,训练得到用于文本主题信息提取的LDA模型;
步骤2:对待检测的输入文本,首先进行分词处理,处理后同时输入ALBERT模型进行目标领域数据检测和LDA模型进行主题信息提取;
步骤2-1:ALBERT模型将[SEP]作为分隔符,对输入的分词后的输入文本进分隔处理,特殊字符[CLS]用于下游的分类任务,使用ALBERT最后一层输入的C向量作为句子对的表示:
C=ALBERT(In)∈Rd (1)
其中,In表示输入文本,d表示d维向量;
步骤2-2:使用LDA模型对输入文本进行主题信息提取;
将输入文本数据按词划分成式(2)所示形式:
In=[t1,...,tN] (2)
式中,t1,...,tN分别表示输入文本划分后的各项;
将划分后的数据项,分别输入至LDA模型之中,计算得到输入文本的主题信息,如式(3)所示:
T=LDA(t1,...,tN)∈Rt (3)
其中,t表示t维向量;
步骤2-3:将ALBERT模型的输出向量C与主题信息T进行组合,得到组合后的数据项F,如式(4)所示;
F=[C;T]∈Rd+t (4)
步骤3:情感分类;
步骤3-1:自适应分类器构建;
采用自适应目标函数学习权重,其目标函数表示为式(5):
式中,λi表示平衡因子,Ti表示情感分类子任务,i表示第i个子任务;
通过自适应动态调节,对权重值λ进行调节,定义fλ(x,y)为样本对(x,y)在情感分类输出,定义概率向量为:
P(y|fλ(x))=soft max(fλ(x)) (6)
其中,fλ(x)表示情感分类函数,softmax(.)表示归一化函数;
目标函数的似然定义如下:
P(y1,...,yn|fλ(x))=P(y1|fλ(x))...P(yn|fλ(x)) (7)
其中,y1,...,yn分别表示子任务;
步骤3-2:通过多目标似然函数计算得到自适应的权重值λ,将组合数据项F输入至softmax归一化函数之中,得到:
P=soft max(Fλ) (8)
通过计算情感分类标签的概率,将概率最大的标签作为目标数据标签,从而实现跨域的情感分类。
2.根据权利要求1所述的一种基于ALBERT和LDA的跨域情感分类方法,其特征在于,所述ALBERT模型的参数定义如表1:
表1 ALBERT模型参数定义:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111382116.2/1.html,转载请声明来源钻瓜专利网。