[发明专利]基于机器学习的语音情感识别系统及方法有效
申请号: | 201811186572.8 | 申请日: | 2018-10-12 |
公开(公告)号: | CN109256150B | 公开(公告)日: | 2021-11-30 |
发明(设计)人: | 徐心;胡宇澄;王麒铭;饶鹏 | 申请(专利权)人: | 北京创景咨询有限公司;徐心 |
主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L17/00;G10L17/02;G10L17/04;G10L17/18;G10L25/24 |
代理公司: | 北京纽乐康知识产权代理事务所(普通合伙) 11210 | 代理人: | 白明珠 |
地址: | 100089 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 机器 学习 语音 情感 识别 系统 方法 | ||
本发明公开了基于机器学习的语音情感识别系统及方法,包括录音降噪模块;断句模块,用于接收录音降噪模块传输过来的录音数据,根据语音学的相关特征将录音数据切割成片段;说话人识别模块,用于接收断句模块传输过来的片段,利用机器学习算法将片段分类,并根据分类对说话人进行识别;特征提取模块,用于接收断句模块传输过来的片段,对每个片段提取频谱特征及梅尔倒谱系数,并在其上进行处理后提取片段特征;情感识别模块,用于接收特征提取模块生成的片段特征,通过机器学习算法对情感预测模型进行训练,并利用集成算法对每个模型的预测结果进行集成。本发明有益效果:有效的在中文语言环境和客户服务电话的实际生产环境中得到良好的表现。
技术领域
本发明涉及语音识别技术领域,具体来说,涉及一种基于机器学习的语音情感识别系统及方法。
背景技术
在语音识别领域大体可以分为了两个模块,一个是基于将语音音频所表达的内容转换为文本形式展示出来,二是基于语音音频,识别音频内部包含的情绪(例如:愤怒或平静等)。关于语音情绪识别,在国外的文献中有涉及,但是局限面比较大;在已有的文献中,多为中文以外的其他语言的情绪识别,并不能直接应用在中文环境下的语音来识别情绪,且文献多为应用单一算法来对情绪进行识别,识别效果相对来说更接近实验室数据,在实际生产中表现并不理想,并不能满足在中文生产环境中的要求。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的上述技术问题,本发明提出一种基于机器学习的语音情感识别系统及方法,能够解决基于中文音频录音的情绪识别问题,包括但不限于客户服务的呼入呼出电话等场景。
为实现上述技术目的,本发明的技术方案是这样实现的:
一种基于机器学习的语音情感识别系统,包括录音降噪模块、断句模块、说话人识别模块、特征提取模块和情感识别模块,其中,
录音降噪模块,用于获取录音数据,利用相关算法对录音数据进行降噪预处理;
断句模块,用于接收录音降噪模块传输过来的录音数据,根据语音学的相关特征将录音数据切割成片段;
说话人识别模块,用于接收断句模块传输过来的片段,利用机器学习算法将片段分类,并根据分类对说话人进行识别;
特征提取模块,用于接收断句模块传输过来的片段,对每个片段提取频谱特征及梅尔倒谱系数,并在其上进行处理后提取片段特征;
情感识别模块,用于接收特征提取模块生成的片段特征,通过机器学习算法对情感预测模型进行训练,并利用集成算法对每个模型的预测结果进行集成。
进一步地,所述录音降噪模块中降噪预处理包括:
训练学习模块,用于输入一个有损的数据,利用有损数据进行训练学习;
输出模块,用于将未被损坏的数据作为深度学习算法的输出;
第一处理模块,用于根据训练好的模型对其他有损数据进行处理。
进一步地,所述说话人识别模块包括:
分类模块,用于利用不同建模方法将录音数据中的不同片段和语音帧分为两类或者多类;
第一集成模块,用于对各个模型的分类结果进行集成,对不同说话人的语音片段的实时及批量的分类标记。
进一步地,所述特征提取模块包括:
提取模块,用于将各个模型根据其建模需要提取各类不同的特征指标;
第二处理模块,用于对梅尔倒谱系数的不同维度指标进行加工处理生成识别特征;
转换模块,用于通过原始语音时域信号,以及其转换生成的语谱图进行图像特征的提取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京创景咨询有限公司;徐心,未经北京创景咨询有限公司;徐心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811186572.8/2.html,转载请声明来源钻瓜专利网。