[发明专利]基于强化学习和领域知识的实时多模态对话情感分析方法在审
申请号: | 202110222049.1 | 申请日: | 2021-02-28 |
公开(公告)号: | CN112948554A | 公开(公告)日: | 2021-06-11 |
发明(设计)人: | 张科;李苑青;王靖宇;苏雨;谭明虎 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 刘新琼 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 领域 知识 实时 多模态 对话 情感 分析 方法 | ||
本发明涉及一种基于强化学习和领域知识的实时多模态对话情感分析方法,属于用户情感倾向分析技术领域。针对实时多模态情感分析无法获得目标之后相关信息的特点,通过强化学习和循环神经网络相结合,设计了新的模型和网络结构,对目标及目标前采样时间段之内的多模态信息进行充分提取、融合和分析,并通过与领域知识相结合,进一步提高识别效率和精度。
技术领域
本发明属于用户情感倾向分析技术领域,具体涉及一种基于强化学习和领域知识的实时多模态对话情感分析模型和方法。
背景技术
用户多模态情感分析是近年来十分热门的一个研究领域,具有广泛的发展潜力和应用前景,例如:自动驾驶系统司机疲劳驾驶监测,机场对于人群中危险分子安全保障监控,医疗领域的自闭症陪护和监测,智能家居领域中独居老人小孩的陪护、报警和监测等。现有多模态情感分析技术中,用于分析的模态根据不同的研究方向而多种多样,其中主要有以下四种:视觉信号,声音信号,文字信息和脑电信号。其中,脑电信号具有相对最高的准确率,但必须配套相应的专用信号采集传感器设备,导致在日常生活领域难以方便地大范围普及。因此,视觉、声音和文字是最常见的多模态用户情感分析研究的输入模态。使用这三种模态的现有相关技术中,主要分为两种,一种是逐句或逐段为对象进行分析,即不考虑上下文信息的情感分析;另一种则是考虑上下文信息,即在考虑全部对话内容的基础上,对某个时间点的用户情感做出判断。前一种技术具有很强的实时性,但由于不考虑上下文信息,不具有很好的准确度,而后一种识别准确度较前一种有很大的提升,但却在实际应用中不具有实时性功能,失去了实时监测的能力。
循环神经网络是近年来人工智能机器学习领域中非常热门的研究方向,而同样作为机器学习的范式和方法论之一的强化学习,通过近年来不断地与循环神经网络相结合,不仅算法设计更加灵活,应用领域也获得了极大的拓展。相应地,不同的应用领域对应着不同的领域知识,领域知识是所研究问题的常识性规范和指导,能够在一定程度上优化算法得出的结果,例如过滤掉违背常识或实际情况的因果关系,增大更可能发生的事件被选择的概率等。通过与强化学习和领域知识相结合,循环神经网络在图像处理、文本分析、语音识别等方向都取得了突破性的进展,且具有训练时间短,训练参数少和设计简洁的特点。
刘启元,张栋(《基于上下文增强LSTM的多模态情感分析》.计算机科学,2019,046(011):181-185)为了获取单模态内部的信息以及多模态之间的交互信息来进行多模态情感分析,文中提出了一种基于上下文增强LSTM的多模态情感分析方法。LSTM是循环神经网络的一种,对于多模态的每种表达,他们结合上下文特征,分别使用LSTM进行编码,再分别捕捉单模态内部的信息;接着融合这些单模态的独立信息,再使用LSTM获得多模态间的交互信息,从而形成多模态特征表示;最后采用最大池化策略,对多模态进行降维,从而构建情感分类器。该算法在公共数据集上取得了很好识别准确率,并大大提升了训练速度。但该多模态情感分析模型使用了与识别目标相关的所有上下文信息作为输入,属于事后分析,而无法具有实时情感分析的能力。
发明内容
要解决的技术问题
已有的多模态情感分析模型是针对所分析目标的事后分析,不仅需要目标之前的信息,也需要提取目标之后的信息,不符合实时多模态对话情感分析的需要和实际情况。针对现有技术的不能实时分析的不足之处,本发明提出一种基于强化学习和领域知识的实时多模态对话情感分析模型和方法。
技术方案
一种用于情感分析的基于循环神经网络的强化学习模型,其特征在于包括12层,第一层为输入层,中间10层为隐含层,包括2层循环神经网络层,2层归一化层,1层激活层和5层全连接层,最后一层为输出层;输入为当前对话采样段内的图像、文字和语音三模态信息,首先分别进行单模态的特征处理;图像特征处理层、文字特征处理层和语音特征处理层均各自包含一层归一化层,一层循环神经网络层和一层全连接层;之后三模态通过一层归一化层,一层循环神经网络层,一层激活层和1层全连接层进行融合,最后连接三层全连接层输出结果;网络输出为采样段最后一句对话信息在情感类型里的概率值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110222049.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:拼接夹具及模板框架
- 下一篇:一种电动扶梯清洁消毒装置