[发明专利]一种多语言融媒体文本情感分析方法有效
申请号: | 202310826886.4 | 申请日: | 2023-07-07 |
公开(公告)号: | CN116561325B | 公开(公告)日: | 2023-10-13 |
发明(设计)人: | 吴林;王永滨;周亭;李海滨;李瑞;刘嘉暄 | 申请(专利权)人: | 中国传媒大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/045;G06N3/047;G06N3/0475;G06N3/048;G06N3/0895;G06N3/094;G06N3/096 |
代理公司: | 北京北知掘金知识产权代理有限公司 11945 | 代理人: | 陈晨 |
地址: | 100024 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语言 媒体 文本 情感 分析 方法 | ||
1.一种多语言融媒体文本情感分析方法,其特征在于,具体包括:
获取源域语言数据,并将所述源域语言数据转换为源域语言矢量向量,并利用源域语言矢量向量训练获得源语言编码器以及源语言分类器;
基于所述源语言编码器进行目标语言编码器的初始化,并将目标语言矢量向量以及进行数据增强后的源域语言矢量向量作为目标语言编码器的输入,得到所述目标语言编码器的输出;
将所述源域语言矢量向量作为输入得到源语言编码器的输出,并通过语言鉴别器确定所述目标语言编码器的输出和源语言编码器的输出的差异,采用学习模块和双线性模块对所述目标语言编码器的参数进行校正,直到所述差异满足要求后,得到训练完成后的目标语言编码器;
对所述源域语言数据和翻译完成后的目标语言数据进行数据增强处理作为综合编码器的输入,采用训练完成的目标语言编码器和源语言编码器构建综合编码器,得到所述目标语言数据的情感分类结果。
2.如权利要求1所述的多语言融媒体文本情感分析方法,其特征在于,所述源域编码器采用基于mBERT-S模型进行构建,所述目标域编码器采用基于mBERT-T模型进行构建。
3.如权利要求1所述的多语言融媒体文本情感分析方法,其特征在于,通过语言鉴别器确定所述目标语言编码器的输出和源语言编码器的输出的差异,具体包括:
获取所述目标语言编码器的输出,并将所述目标语言编码器的输出作为所述语言鉴别器的输入,并通过语言鉴别器确定所述语言鉴别器的输入为来自目标语言编码器的概率;
获取所述源语言编码器的输出,并将所述源语言编码器的输出作为所述语言鉴别器的源语言输入,并通过语言鉴别器确定所述语言鉴别器的源语言输入为来自源语言编码器的概率;
通过所述目标语言编码器的概率和所述源语言编码器的概率进行损失函数的构建,并基于所述损失函数进行述目标语言编码器的输出和源语言编码器的输出的差异的确定。
4.如权利要求3所述的多语言融媒体文本情感分析方法,其特征在于,通过所述目标语言编码器的概率和所述源语言编码器的概率进行损失函数的构建,具体包括:
通过所述目标语言编码器的概率进行所述目标语言编码器的目标语言损失函数的构建;
通过所述源语言编码器的概率进行所述源语言编码器的源语言损失函数的构建;
通过所述目标语言损失函数和源语言损失函数进行损失函数的构建,其中所述损失函数的计算公式为:
;
其中,D是语言判别器,为判别器损失函数,为源语言文本,为目标语言文本,为源语言特征提取器,为目标语言特征提取器。为从样本中随机选取其中一个单独样本进行特征提取,为从样本中随机选取其中一个单独样本进行特征提取,为判别器判定输入数据为来自源语言模型的概率,为判别器判定输入数据来自目标语言模型的概率;是指让判别器状态趋近于最优,即尽量趋近1,尽量趋近于0。
5.如权利要求1所述的多语言融媒体文本情感分析方法,其特征在于,对所述源域语言数据和翻译完成后的目标语言数据进行数据增强处理,具体包括:
采用Code-switching和二次Dropout的方式对所述源域语言数据和翻译完成后的目标语言数据进行数据增强处理得到数据增强处理完成后的源域语言数据和数据增强处理完成后的翻译完成后的目标语言数据;
构建模型总损失函数,确定所述数据增强处理完成后的源域语言数据和数据增强处理完成后的翻译完成后的目标语言数据与数据处理前的源域语言数据和翻译完成后的目标语言数据的差异。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国传媒大学,未经中国传媒大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310826886.4/1.html,转载请声明来源钻瓜专利网。