[发明专利]一种基于ALBERT和LDA的跨域情感分类方法在审

申请号：	202111382116.2	申请日：	2021-11-22
公开（公告）号：	CN114238627A	公开（公告）日：	2022-03-25
发明（设计）人：	郑江滨;曹宏业	申请（专利权）人：	西北工业大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/289;G06N3/04;G06N3/08
代理公司：	西北工业大学专利中心 61204	代理人：	金凤
地址：	710072 ***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 albert lda 情感分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于ALBERT和LDA的跨域情感分类方法，其特征在于，包括如下步骤：

步骤1：模型训练与数据预处理；

处理训练数据集，对训练数据集中的数据进行分词和去除停用词操作；

将处理后的训练数据集用于ALBERT模型的训练，得到用于对目标领域数据检测的ALBERT模型；

使用Amazon提供的无标记训练数据集，进行主题模型训练，训练得到用于文本主题信息提取的LDA模型；

步骤2：对待检测的输入文本，首先进行分词处理，处理后同时输入ALBERT模型进行目标领域数据检测和LDA模型进行主题信息提取；

步骤2-1：ALBERT模型将[SEP]作为分隔符，对输入的分词后的输入文本进分隔处理，特殊字符[CLS]用于下游的分类任务，使用ALBERT最后一层输入的C向量作为句子对的表示：

C＝ALBERT(In)∈R^d (1)

其中，In表示输入文本，d表示d维向量；

步骤2-2：使用LDA模型对输入文本进行主题信息提取；

将输入文本数据按词划分成式(2)所示形式：

In＝[t₁,...,t_N] (2)

式中，t₁,...,t_N分别表示输入文本划分后的各项；

将划分后的数据项，分别输入至LDA模型之中，计算得到输入文本的主题信息，如式(3)所示：

T＝LDA(t₁,...,t_N)∈R^t (3)

其中，t表示t维向量；

步骤2-3：将ALBERT模型的输出向量C与主题信息T进行组合，得到组合后的数据项F，如式(4)所示；

F＝[C；T]∈R^d+t (4)

步骤3：情感分类；

步骤3-1：自适应分类器构建；

采用自适应目标函数学习权重，其目标函数表示为式(5)：

式中，λ_i表示平衡因子，T_i表示情感分类子任务，i表示第i个子任务；

通过自适应动态调节，对权重值λ进行调节，定义f^λ(x,y)为样本对(x,y)在情感分类输出，定义概率向量为：

P(y|f^λ(x))＝soft max(f^λ(x)) (6)

其中，f^λ(x)表示情感分类函数，softmax(.)表示归一化函数；

目标函数的似然定义如下：

P(y₁,...,y_n|f^λ(x))＝P(y₁|f^λ(x))...P(y_n|f^λ(x)) (7)

其中，y₁,...,y_n分别表示子任务；

步骤3-2：通过多目标似然函数计算得到自适应的权重值λ，将组合数据项F输入至softmax归一化函数之中，得到：

P＝soft max(Fλ) (8)

通过计算情感分类标签的概率，将概率最大的标签作为目标数据标签，从而实现跨域的情感分类。

2.根据权利要求1所述的一种基于ALBERT和LDA的跨域情感分类方法，其特征在于，所述ALBERT模型的参数定义如表1：

表1 ALBERT模型参数定义：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西北工业大学，未经西北工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111382116.2/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载