[发明专利]基于多分类器交互学习的语音情感识别方法有效
申请号: | 202011623065.3 | 申请日: | 2020-12-31 |
公开(公告)号: | CN112837701B | 公开(公告)日: | 2022-12-27 |
发明(设计)人: | 谷裕;梁雪峰;周颖;尹义飞;韩迎萍;姚龙山 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G10L25/63 | 分类号: | G10L25/63;G06K9/62 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 王品华 |
地址: | 710071*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 分类 交互 学习 语音 情感 识别 方法 | ||
本发明提出一种针对语音中的较为模糊情感的识别方法,主要解决现有技术中大多数语音数据为模糊数据,情感识别准确率低及人工注释标签成本较高的问题。其实现方案是:1)通过少量具有精确标签的数据对五个分类器进行初次训练得到五个模型,并用这五个模型为模糊数据构造一个模糊标签;2)用具有模糊标签的数据二次训练五个模型,得到的训练好的五个情感分类模型;3)将少量无标签数据放入训练好的五个模型进行语音情感识别,得到对愤怒、高兴、平静、恐慌和悲伤这五种情感分类判别的准确率;4)选择准确率最高的结果作为数据标签为情感分类结果。本发明提高了模糊数据处理能力,识别准确率高,成本低,可用于健康检索、信息安全及机器人。
技术领域
本发明属于人工智能技术领域,具体是涉及一种语音情感识别方法,可用于健康检索、信息安全及机器人。
背景技术
情感识别ER是指计算机对从传感器采集来的信号进行分析和处理,从而得到人的情感状态。情感识别具有非常广阔的应用前景,随着情感识别的引入各行各业的服务质量都将有很大的提升。目前情感识别技术已被逐步应用于视频剧情广告推荐、视频自动编辑等,并且带来了巨大的经济价值。而语音情感识别SER是指从语音中信号中寻找情感内容。从生理心理学角度,相比面部表情和身体姿态等人类行为,语音更能表达人类内心潜在的情感,可以表达面部表情和身体姿态无法表达的潜在情感状态。
关于语音情感识别方面的研究,主要包括语音接口、语言处理、语音分析,其在健康、检索、机器人、安全以及其他相关领域有很大的应用。人类和机器之间的最有效的互动方式是语音,但目前最大的障碍是机器无法足够的获取和识别人类的语音信息。而语言情感识别是人类交流必不可少的一部分,因此语音情感识别SER目前也被看做能够丰富下一代人工智能“情商”的重要研究领域。
由于通过语音情感识别的重要性,以及语音情感识别方式可以更好的预测出人内心的潜在情感,因此语音情感识别长期以来受到了大量的关注。但是正是因为语音情感数据的模糊,因此识别的任务具有挑战性,语音情感识别和合成方面进展很慢。因而如何以更有效的方式利用语音数据进行情感识别,如何提高情感识别的准确率和一致性,仍然是当前情感识别中的难点问题。
近年来,通过深度学习技术从语谱图中提取特征已经成为语音情感识别相关任务的一个新趋势,在性能上表现出了很强的竞争力。自从第一次发表了成功地使用卷积神经网络CNN从语音信号中学习特征表征,一些研究人员就跟随这一趋势,使用深度神经网络自动学习特征表征。例如,2016年,Trigeorgis有学者使用端到端的学习算法,结合了CNN和循环神经网络RNN,并且融入了长短期记忆网络LSTM,实现了较高的识别效果。2019年,Dai等人提出了一种新的方法来解决模糊情绪分类问题,它结合了交叉熵损失和中心损失,并增强了辨别能力。2017年,Cumins等人提出了一种基于CNN的方法,它使用预训练的AlexNet提取深度谱特征,并使用线性支持向量机来解决分类任务。这些方法都是将语谱图直接反馈到神经网络中完成与语音情感识别的相关任务,这些方法的不足之处是他们都需要语音数据有精确标签,然而实际情况下大多数语音数据是没有精确标签的,这些方法就不能取得很好的效果。
标签分布学习ldl是近年来提出的一种机器学习方法,已在多个领域得到应用,它用标签分布代替数据的精确标签。例如,为了处理年龄相近时脸部表情的相似性,2013年,Geng等人最初提出了一种用年龄的标签分布来处理脸部年龄估计问题的低密度脂蛋白算法。2018年,Gao等人提出了一个端到端的学习结构,可以获得特征学习阶段和分类器阶段的年龄标签分布。标签分布学习的使用不仅限于年龄估计,而且在其他方面也得到了很好的应用。2015年,Zhang等人利用标签分布学习设计了一种用于群体计数的公共视频监控算法。2019年,刘等人提出了一种标签分布学习算法,将照片分为广角类型和窄角类型。这些方法虽说达到了最先进的性能。但是它们的不足之处是不能给出数据合理的模糊标签,因为它们的数据标签要么是手动注释的,要么是基于强大的假设。
发明内容
本发明的目的在于针对上述现有技术的不足,提出一种基于多分类器交互学习的语音情感识
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011623065.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种翼舵缝隙内部及舵轴热流测量方法
- 下一篇:一种用于钢结构的方便拆卸脚手架