[发明专利]基于线索神经网络的语音-视觉融合情感识别方法有效
申请号: | 201310304011.4 | 申请日: | 2013-07-19 |
公开(公告)号: | CN103400145A | 公开(公告)日: | 2013-11-20 |
发明(设计)人: | 吕坤;张欣 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/66;G06N3/02 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 线索 神经网络 语音 视觉 融合 情感 识别 方法 | ||
技术领域
本发明涉及一种多通道信息融合的情感识别方法,特别涉及一种基于线索神经网络的语音-视觉融合情感识别方法,属于自动情感识别领域。
背景技术
各个学科的研究人员已经在自动情感识别领域做了很多工作。情感可以使用离散类别方法表示(如Ekman提出的6种基本情感类别),或者使用连续维度方法表示(如activation-evaluation空间方法),或者使用基于评价的方法表示。脸部表情、语音、身体姿势及上下文等多种不同的特征都可以用来识别人的情感状态。研究人员已经针对单模态情感识别与分析做了很多工作。
融合语音和视觉两个通道的信息可以提高情感识别的准确度。原因在于语音-视觉双模态融合可以利用这两个通道的互补信息。语音-视觉情感识别中使用的数据融合方法大都可以归为以下三类:特征层融合、模型层融合和决策层融合。模型层融合使用了多个数据流之间的关联信息,可能是该融合问题的最佳选择。Zeng等人在文献《Audio–Visual Affective Expression Recognition Through Multistream Fused HMM》(IEEE TRANSACTIONS ON MULTIMEDIA,vol.10,no.4,June2008)中提出了一种多流融合HMM(MFHMM)方法,根据最大熵和最大相互信息准则,建立多个语音-视觉流间的优化连接。MFHMM通过将一个分量HMM的隐节点和其它分量HMM的观察变量相连来融合多个分量HMM。他们接着在文献《Training Combination Strategy of Multi-Stream Fused Hidden Markov Model for Audio-Visual Affect Recognition》(Proc.14th ACM Int’l Conf.Multimedia(Multimedia’06),pp.65-68,2006.)中扩展了该框架,采用训练组合策略,使多个HMM的组合机制既可以是线性也可以是非线性的。Petridis等人在文献《Audiovisual Discrimination between Laughter and Speech》(IEEE Int’l Conf.Acoustics,Speech,and Signal Processing(ICASSP),pp.5117-5120,2008.)中使用神经网络来合并语音-视觉通道的信息。总的来讲,这些方法在自然情感识别中还未达到令人满意的识别准确率。
发明内容
本发明的目的是为了解决已有技术存在的识别率不高的问题,提出一种基于线索神经网络的语音-视觉融合情感识别方法。
本发明的目的是通过下述技术方案实现的。
一种基于线索神经网络的语音-视觉融合情感识别方法,用于识别情感视频中人的情感,其识别过程包括2部分:训练过程和识别过程。
所述训练过程的具体实施步骤包括步骤一至步骤四,具体为:
步骤一、建立神经网络分类器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310304011.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:榨油机的控制装置和方法
- 下一篇:榨油机的控制装置和方法