[发明专利]基于多任务学习的网民情绪识别方法、系统及电子设备有效
申请号: | 202110906528.5 | 申请日: | 2021-08-09 |
公开(公告)号: | CN113722477B | 公开(公告)日: | 2023-09-19 |
发明(设计)人: | 韩勇;李青龙;骆飞;赵冲 | 申请(专利权)人: | 北京智慧星光信息技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/0442;G06N3/08 |
代理公司: | 北京智宇正信知识产权代理事务所(普通合伙) 11876 | 代理人: | 李明卓 |
地址: | 100080 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 任务 学习 网民 情绪 识别 方法 系统 电子设备 | ||
本发明公开了一种基于多任务学习的网民情绪识别方法、系统及电子设备,该方法包括:将每一个训练文本的文字信息、表情符号信息和原文信息进行向量化得到文字向量、表情符号向量和原文向量;将上述三个向量分别输入到共享模型中得到文字特征矩阵、表情符号特征矩阵和原文特征矩阵;将这三个矩阵分别通过softmax计算生成文字概率值、表情符号概率值以及原文概率值;根据这三个概率值和真实值之间的误差计算得到总损失函数,根据总损失函数更新模型参数,根据测试集进行验证得到最大acc和f1值对应的模型,并将该模型作为最优情绪识别模型;将待识别文本输入最优情绪识别模型得到情绪预测类别。通过三种不同学习任务得到最优情绪识别模型,提高识别准确度。
技术领域
本发明涉及文本分析领域,具体涉及到一种基于多任务学习的网民情绪识别方法、系统、电子设备及存储介质。
背景技术
现有的网民情感识别,主要有以下几类:
(1)基于规则匹配
搜集每种情绪的情绪词,并构建情绪词典,通过匹配情绪词,并根据情感词在文章的位置不同给予不同的权重,并根据权重对全文进行情绪打分,最终通过情绪分数来判断情绪类别。
(2)基于语义的学习
基于机器学习、深度学习的方法,对上下文语义进行建模,通过对标注的数据集进行模型训练学习,利用训练好的模型来预测未知文本的可信度最大的情绪类别。
然而,互联网自媒体发文越来越口语化和表情化,越简单越明了,仅根据字面语义已经无法准确的识别网民内心情绪。
发明内容
有鉴于此,本发明实施例提供了一种基于多任务学习的网民情绪识别方法、系统、电子设备及存储介质,以解决现有技术中情绪识别不准确的缺点。
为此,本发明实施例提供了如下技术方案:
根据第一方面,本发明实施例提供了一种基于多任务学习的网民情绪识别方法,包括:
获取训练集,所述训练集中包括多个训练文本;
根据训练集得到每一个训练文本对应的文字信息、表情符号信息以及原文信息;
分别对每一个训练文本对应的文字信息、表情符号信息以及原文信息进行向量化处理,得到文字信息对应的文字向量、表情符号信息对应的表情符号向量以及原文信息对应的原文向量;
将每一个训练文本的文字信息对应的文字向量、表情符号信息对应的表情符号向量以及原文信息对应的原文向量分别输入到共享模型中,得到每一个训练文本的文字信息对应的文字特征矩阵、表情符号信息对应的表情符号特征矩阵以及原文信息对应的原文特征矩阵;所述共享模型包括bi-lstm和attention模型;
分别将每一个训练文本的文字信息对应的文字特征矩阵、表情符号信息对应的表情符号特征矩阵以及原文信息对应的原文特征矩阵通过softmax计算生成每一个训练文本的文字信息对应的文字概率值、表情符号信息对应的表情符号概率值以及原文信息对应的原文概率值;
分别根据每一个训练文本对应的文字概率值、表情符号概率值、原文概率值、文字真实值、表情符号真实值和原文真实值得到每一个训练文本对应的总损失函数值;
根据每一个训练文本的总损失函数值进行误差反向传播更新模型参数得到多个情绪识别模型;
获取测试集,所述测试集中包括多个测试文本;
将多个测试文本分别输入到每一个情绪识别模型中,得到每一个情绪识别模型对应的acc和f1值;
将最大acc和f1值对应的模型作为最优情绪识别模型;
获取待识别文本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智慧星光信息技术有限公司,未经北京智慧星光信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110906528.5/2.html,转载请声明来源钻瓜专利网。