[发明专利]一种基于ALBERT和LDA的跨域情感分类方法在审

专利信息
申请号: 202111382116.2 申请日: 2021-11-22
公开(公告)号: CN114238627A 公开(公告)日: 2022-03-25
发明(设计)人: 郑江滨;曹宏业 申请(专利权)人: 西北工业大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/289;G06N3/04;G06N3/08
代理公司: 西北工业大学专利中心 61204 代理人: 金凤
地址: 710072 *** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 albert lda 情感 分类 方法
【权利要求书】:

1.一种基于ALBERT和LDA的跨域情感分类方法,其特征在于,包括如下步骤:

步骤1:模型训练与数据预处理;

处理训练数据集,对训练数据集中的数据进行分词和去除停用词操作;

将处理后的训练数据集用于ALBERT模型的训练,得到用于对目标领域数据检测的ALBERT模型;

使用Amazon提供的无标记训练数据集,进行主题模型训练,训练得到用于文本主题信息提取的LDA模型;

步骤2:对待检测的输入文本,首先进行分词处理,处理后同时输入ALBERT模型进行目标领域数据检测和LDA模型进行主题信息提取;

步骤2-1:ALBERT模型将[SEP]作为分隔符,对输入的分词后的输入文本进分隔处理,特殊字符[CLS]用于下游的分类任务,使用ALBERT最后一层输入的C向量作为句子对的表示:

C=ALBERT(In)∈Rd (1)

其中,In表示输入文本,d表示d维向量;

步骤2-2:使用LDA模型对输入文本进行主题信息提取;

将输入文本数据按词划分成式(2)所示形式:

In=[t1,...,tN] (2)

式中,t1,...,tN分别表示输入文本划分后的各项;

将划分后的数据项,分别输入至LDA模型之中,计算得到输入文本的主题信息,如式(3)所示:

T=LDA(t1,...,tN)∈Rt (3)

其中,t表示t维向量;

步骤2-3:将ALBERT模型的输出向量C与主题信息T进行组合,得到组合后的数据项F,如式(4)所示;

F=[C;T]∈Rd+t (4)

步骤3:情感分类;

步骤3-1:自适应分类器构建;

采用自适应目标函数学习权重,其目标函数表示为式(5):

式中,λi表示平衡因子,Ti表示情感分类子任务,i表示第i个子任务;

通过自适应动态调节,对权重值λ进行调节,定义fλ(x,y)为样本对(x,y)在情感分类输出,定义概率向量为:

P(y|fλ(x))=soft max(fλ(x)) (6)

其中,fλ(x)表示情感分类函数,softmax(.)表示归一化函数;

目标函数的似然定义如下:

P(y1,...,yn|fλ(x))=P(y1|fλ(x))...P(yn|fλ(x)) (7)

其中,y1,...,yn分别表示子任务;

步骤3-2:通过多目标似然函数计算得到自适应的权重值λ,将组合数据项F输入至softmax归一化函数之中,得到:

P=soft max(Fλ) (8)

通过计算情感分类标签的概率,将概率最大的标签作为目标数据标签,从而实现跨域的情感分类。

2.根据权利要求1所述的一种基于ALBERT和LDA的跨域情感分类方法,其特征在于,所述ALBERT模型的参数定义如表1:

表1 ALBERT模型参数定义:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111382116.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top