[发明专利]一种建立语音情感识别模型的方法及语音情感识别方法在审
申请号: | 201911355782.X | 申请日: | 2019-12-25 |
公开(公告)号: | CN110910904A | 公开(公告)日: | 2020-03-24 |
发明(设计)人: | 王磊 | 申请(专利权)人: | 浙江百应科技有限公司 |
主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L25/27;G10L25/03 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 汤东凤 |
地址: | 311121 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 建立 语音 情感 识别 模型 方法 | ||
本发明公开了一种建立语音情感识别模型的方法,所述方法包括:使用opensmile提取出1584维的情感声学特征;利用情感声学特征作为自然情绪状态的语音训练生成一个UBM通用背景模型;针对每一类自然情绪状态,在UBM通用背景模型的基础上生成每一类自然情绪状态对应的GMM模型;将生成的每一类自然情绪状态对应的GMM模型作为语音情感识别模型。
技术领域
本发明涉及语音信号处理领域,尤其涉及一种建立语音情感识别模型的方法及语音情感识别方法。
背景技术
随着人工智能技术的发展,计算机变得越来越智能,小爱同学、苹果siri以及更多的智能对话系统走进人们的生活,人们通过智能对话系统与各种各样的机器进行交流互动,但是几乎所有的智能对话系统都无法能够对人的情感进行识别,作出足够智能的反馈。语音中的情绪信息是反应人类情绪的一个十分重要的行为信号,同时识别语音中所包含的情绪信息是实现自然人机交互的重要一环。而目前的人脸识别技术,可以通过对人类的表情进行判断分析,却无法适用于智能外呼场景,在目前的智能外呼领域中情绪识别还是一个比较空白的领域。
发明内容
本发明要解决的技术问题,在于提供一种建立语音情感识别模型的方法及语音情感识别方法,以实现智能外呼领域识别语音所携带的情绪,提高语义的理解精度。
第一方面,本发明提供一种建立语音情感识别模型的方法,所述方法包括:
使用opensmile提取出1584维的情感声学特征;
利用所述情感声学特征作为自然情绪状态的语音训练生成一个UBM通用背景模型;
针对每一类自然情绪状态,在所述UBM通用背景模型的基础上生成每一类自然情绪状态对应的GMM模型;
将所述生成的每一类自然情绪状态对应的GMM模型作为语音情感识别模型。
在上述方案中,所述自然情绪状态包括高兴、悲伤、愤怒和中性。
第二方面,本发明提供一种基于第一方面任一项所述的一种建立语音情感识别模型的方法的语音情感识别方法,包括:
获取语音文件,对语音文件进行VAD预处理,根据静音部分将语音文件切分为至少一份音频,同时将至少一份音频转换成声学特征;
将所述声学特征输入语音情感识别模型,获得GMM超向量;
所述GMM超向量作为所述至少一份音频的embedding输入XGBoost模型中获得所述至少一份音频的标签;
所述至少一份音频的标签采用Bagging算法进行投票,获得所述至少一份音频的标签的投票结果;
将占据多数的投票结果作为最终的输出结果,对语音文件进行情绪打标。
在上述方案中,所述方法还包括:在时间频域上,切除语音文件的静音部分,获得切分后的至少一份音频。
本发明的有益效果是:基于上述技术方案,本发明实施例提供一种建立语音情感识别模型的方法及语音情感识别方法,只需通过少量语料即可训练出一个基于GMM-UBM的语音情感识别模型,做到用户语音情感的正确识别;同时该模型能够做到实时识别,在线上使用,可做到毫秒响应;其次该模型维护成本低,只需收集badcase重新训练模型即可实现对各种语音情绪的识别。
附图说明
图1为本发明提供的一种建立语音情感识别模型的方法的流程示意图;
图2为本发明提供的一种语音情感识别方法的流程示意图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江百应科技有限公司,未经浙江百应科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911355782.X/2.html,转载请声明来源钻瓜专利网。