[发明专利]具有情感识别功能的英语语音发音质量评价系统及方法在审
申请号: | 201310391948.X | 申请日: | 2013-09-02 |
公开(公告)号: | CN104050965A | 公开(公告)日: | 2014-09-17 |
发明(设计)人: | 李心广;李苏梅;姚敏锋;任达成;辛昊旭;沈东雄;江立锐;林雅婷;陈嘉华;何智明 | 申请(专利权)人: | 广东外语外贸大学;李心广;李苏梅;姚敏锋;任达成;辛昊旭;沈东雄;江立锐;林雅婷;陈嘉华;何智明 |
主分类号: | G10L15/14 | 分类号: | G10L15/14;G10L25/63 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林伟斌 |
地址: | 510006 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 具有 情感 识别 功能 英语 语音 发音 质量 评价 系统 方法 | ||
技术领域
本发明涉及语音识别(包括情感识别)与评价的技术领域,更具体地,涉及一种可识别说话人的情感信息,并将语音信号识别后转变为相应的翻译结果,并给出客观评价和反馈指导的具有情感识别功能的英语语音发音质量客观评价系统。本发明还涉及该系统的语音情感识别、语音识别与评价方法。
背景技术
语音识别技术就是让机器通过识别和理解,把人发出的语音信号转变为相应的文本或做出设定命令的技术,它正逐步成为信息技术中人机交互的关键技术。而情感识别技术就是让机器自动识别出说话人的情感状态及其变化,是进一步建立智能和谐人机环境的关键。如何从语音信号中自动识别说话者的情感状态,如何更好地对语音进行客观评价,近年来已受到各领域研究者的广泛关注。因此,具有情感识别功能的英语语音发音质量客观评价系统有着巨大的发展潜力与应用前景。研究成果可用于日常的英语教学中,如口语练习及口语考试,还可运用到计算机批量改卷中,大大减少改卷中耗费的人力物力。此外,可以用于自动远程电话服务中心,及时发现客户的不满情绪;用于远程教学和婴儿教育,及时识别学生的情绪并做出适当的处理,从而提高教学质量;也可以用于刑事侦察中自动检测犯罪嫌疑人的心理状态以及辅助测谎等。
发明内容
本发明为克服上述现有技术所述的至少一种缺陷,提供具有情感识别功能的英语语音发音质量评价系统,实现英语句子的情感识别、语音识别、口语翻译、客观评价和反馈指导等功能。此外,本发明具有情感识别时可信度较高;语音识别时效率更高,识别准确率更高;语音评价时,评价指标更全面,客观评价和反馈指导准确客观,真实性和可信性高的特点。
进一步的,本发明还提供应用该系统的方法,可对语音情感识别、语音识别与评价。
为解决上述技术问题,本发明采用的技术方案是:具有情感识别功能的英语语音发音质量评价系统,其包括依次连接的语音采集模块、语音预处理模块、语音特征提取模块、语音识别模块、语音情感识别模块、客观评价模块及反馈指导模块,还包括分别与语音识别模块、语音情感识别模块、客观评价模块、反馈指导模块连接的标准语句模型库。
语音采集模块对语音信号进行采集,语音预处理模块对语音信号进行预加重、分帧、加窗、端点检测预处理;语音特征提取模块对语音信号进行语音特征参数的提取;语音识别模块、语音情感识别模块、客观评价模块和反馈指导模块通过与标准语句模型库的匹配对语音信号进行语音识别、情感识别、客观评价和反馈指导。
所述客观评价模块包括依次连接的语速评价单元、准确度评价单元、重音评价单元、节奏评价单元和语调评价单元,通过比较待评价语句和标准语句的语速、准确度、重音、节奏和语调进行综合评价;
所述语速评价单元通过计算待评价语句与标准语句的时长比,与所设置的语速阈值进行比较;
所述准确度评价单元采用短时能量作为特征来提取语句的强度曲线,进而采用抽查值的方法将待评价语句规整到与标准语句相近的程度,再将之与标准语音的强度曲线图进行对比,通过比较其拟合程度进行评价;
所述重音评价单元在规整后强度曲线图的基础上,设置重音阈值和非重音阈值作为特征的双门限以及重读元音时长,进行重音单元的划分;进而采用DTW算法对待评价语句和标准语句进行模式匹配;
所述节奏评价单元采用改进的dPVI参数计算公式,根据语音单元时长差异性的特征,将标准语句与待评价语句的音节单元片段时长分别进行对比计算,并转换出相对应的参数;
所述语调评价单元通过提取语句发音的语速、能量、基频、共振峰等短时特征参数并加以分析,通过判断共振峰在语音信号中的趋势来判断发音在语调方面的变化,再将之与标准语音的语调变化进行对比,最后通过语调的拟合程度进行打分。
同时,本发明还提供具有情感识别功能的英语语音发音质量评价的方法,其包括以下步骤:
(1)语音采集模块对语音信号进行采集,并根据奈奎斯特采样定理将模拟信号数字化;
(2)语音预处理模块对所得的语音信号进行预加重、分帧、加窗、端点检测预处理;
(3)语音特征提取模块对预处理后的语音信号进行语音特征参数MFCC、情感特征参数语音基频、共振峰等参数的提取;
(4)语音识别模块采用分段均值数据降维算法对所得的语音特征进行降维处理,然后通过与标准语句模型库的匹配,以语音和文本的形式输出识别结果;
(5)情感识别模块采用分段均值数据降维算法对所得的语音特征进行降维处理,让后通过与标准语句模型库的相匹配,以语音和文本的形式输出识别结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东外语外贸大学;李心广;李苏梅;姚敏锋;任达成;辛昊旭;沈东雄;江立锐;林雅婷;陈嘉华;何智明,未经广东外语外贸大学;李心广;李苏梅;姚敏锋;任达成;辛昊旭;沈东雄;江立锐;林雅婷;陈嘉华;何智明许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310391948.X/2.html,转载请声明来源钻瓜专利网。