[发明专利]基于特征集融合的语音情感识别及评价方法有效
申请号: | 202010563652.1 | 申请日: | 2020-06-19 |
公开(公告)号: | CN111816212B | 公开(公告)日: | 2022-10-11 |
发明(设计)人: | 周后盘;夏鹏飞;周伟东 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L15/06 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 杨舟涛 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 征集 融合 语音 情感 识别 评价 方法 | ||
本发明公开了一种基于特征集融合的语音情感识别及评价方法,本发明利用Opensmile工具包提取IS09_emotion、IS10_paraling、IS11_speaker_state、IS12_speaker_trait四种语音情感特征集,建立Stacking集成学习模型,通过Stacking的初级学习器融合四种语音特征集,并通过Stacking的次级学习器建立最终的语音情感识别模型。实验结果表明在EMODB和RAVDESS这两种常见的语音数据库上,Stacking集成学习模型不仅关注单个语音情感特征集,同时可以融合不同语音情感特征集,进而达到更好的情感识别效果。
技术领域
本发明涉及一种语音情感识别方法,具体涉及一种基于特征集融合的语音情感识别及评价方法。
背景技术
语音作为情感的载体之一,包含了丰富的情感信息。在过去几十年中语音情感识别的相关研究取得了巨大的进步并在许多不同的研究领域都有着广阔的前景。随着计算机语音识别等技术的成熟以及相关研究不断涌现,语音情感识别开始更多地应用到教育业、娱乐业、通讯业当中,加强对语音情感、情绪的识别成为了下一代人工智能发展的重点,鉴于此开展针对语音情感识别的研究具有较强的理论价值和实用意义。
情感描述方式一般可分为离散和维度两种形式。PAD三维空间情感模型是既简单又被广泛使用的维度情感描述模型,其中P代表愉悦度(Pleasure-Displeasure),表明了个体情感状态的积极或消极特性;A代表激活度(Arousal-Nonarousal),表明了个体的神经生理激活程度;D代表优势度(Dominance-Submissiveness),表明了个体对环境和他人的主观控制状态。
Stacking是一种集成学习模型,在stacking方法中,我们把个体学习器叫做初级学习器,用于结合的学习器叫做次级学习器,次级学习器用于训练的数据叫做次级训练集。次级训练集是在训练集上用初级学习器得到的。
发明内容
本发明针对目前语音情感识别中特征集单一、预测结果不精准等问题,提出了一种基于特征集融合的语音情感识别及评价方法。通过Opensmile工具包提取IS09_emotion、IS10_paraling、IS11_speaker_state、IS12_speaker_trait四种不同的语音情感特征集,基于Stacking的初级学习器融合四种不同语音特征集,建立了不同语音情感特征集的关系,并通过Stacking的次级学习器建立最终的语音情感识别模型,进而达到更好的情感识别效果。
基于特征集融合的语音情感识别及评价方法。实现包括以下步骤:
步骤一:从语音数据库中读取.wav语音文件,对语音文件预处理后提取N种语音特征集;
步骤二:建立Stacking学习模型;
通过初级学习器融合N种语音特征集,并建立Stacking学习模型的次级学习器,通过次级学习器对融合后的语音特征集做最终的语音情感识别预测;
将得到的语音特征集切分为训练数据和测试数据,分别为Training Data、TestData;采用K折交叉验证来切分训练数据得到Train1,Train2…Traink。此时初级学习器要做K次训练和预测。
使用训练数据中的Train2,Train3…Traink做为训练集Set1,Train1做为验证集,基于训练集Set1训练初级学习器,预测得到验证集Train1的预测结果Val1,同时预测得到测试集Test的预测结果Test1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010563652.1/2.html,转载请声明来源钻瓜专利网。