[发明专利]一种基于巴氏距离的语音特征映射方法及系统有效
申请号: | 201810572146.1 | 申请日: | 2018-06-06 |
公开(公告)号: | CN108766430B | 公开(公告)日: | 2020-08-04 |
发明(设计)人: | 王志锋;左明章;宁国勤;叶俊民;闵秋莎;田元;夏丹;陈迪;罗恒;姚璜 | 申请(专利权)人: | 华中师范大学 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/06;G10L25/24;G10L15/02 |
代理公司: | 北京金智普华知识产权代理有限公司 11401 | 代理人: | 杨采良 |
地址: | 430079 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 距离 语音 特征 映射 方法 系统 | ||
本发明属于语音识别/说话人识别技术领域,公开了一种基于巴氏距离的语音特征映射方法及系统,首先分别提取复杂环境下语音信号和干净语音信号的特征;接着利用复杂特征和特征映射公式初始化映射特征,并分别建立映射特征与干净特征的GMM模型;然后用EM算法迭代估计两个GMM模型之间的最小巴氏距离,并得到最终的映射特征;最后将映射特征与已经训练完毕的干净环境下的语音信号模型进行模式匹配和识别。本发明通过最小化复杂特征GMM与干净特征GMM之间的巴氏距离来对复杂特征进行映射,得到映射特征,并将映射特征与干净模型进行模式匹配与识别;用映射特征代替复杂特征,能够有效提高语音识别的正确率。
技术领域
本发明属于语音识别/说话人识别技术领域,尤其涉及一种基于巴氏距离的语音特征映射方法及系统。
背景技术
随着计算机技术对人机交互的推动发展,语音交互在现实的场景中应用越来越广泛。语音交互是人与机器之间以语音的方式进行交互,这种交互方式更加贴近于人类之间的交互,更符合人的交互习惯。语音交互能够使用户更为舒适的与机器进行交互,使交互以一个更加简单、快捷、高效的方式进行,也使得人机交互过程更加人性化,更加突出人在整个交互过程中的主导地位。语音交互可以解放人的双手,让双手在进行其他操作时依然能够与机器进行交互,这不仅大大为人提供了方便,也在沉浸感、安全性等不同方面为人提供了便利。
语音识别是开始语音交互进程的入口也是语音交互技术的重要组成部分,语音识别的结果直接影响整个语音交互的性能。在语音交互中,首要的就是让机器能够“听懂”人类的语言,只有这样,语音交互才能继续进行。因此,语音识别是语音交互的基础和前提。语音识别的含义是指将人的说话内容通过一系列的处理手段转换为相应的文字,即语音转文字。通俗地讲,就是赋予机器人耳功能,让机器能够对人的听觉进行模拟。
目前的语音识别在比较理想的环境中能够获取比较好的效果。然而一旦受到外界环境的干扰,则其识别率就会大大降低,语音交互受到严重影响。糟糕的是我们现实中所处的环境是复杂的环境,四周被各式各样的噪声围绕着,不管是自然的噪声(如风声,雨声,雷声,流水声等等)还是人为的噪声(如周围人说话的声音,机器的声音等等)都会对语音交互造成影响,从而严重影响用户体验。因此,有效地从带噪声的语音信号中消除噪声,建立一个抗噪性能较好的识别系统是一个亟待解决的问题。
现有的技术一般从三个方面入手,分别是作用于语音信号阶段的语音增强技术,作用于特征阶段的特征映射技术和作用于模型阶段的模型补偿技术。而对于提高复杂环境语音识别准确性最常用的是特征映射技术,这是因为特征是表征语音信号最合适手段,合适的特征能够取得良好的效果。本发明所涉及的基于巴氏距离的特征映射方法就是一种特征映射技术。而特征映射技术的本质是对映射函数的参数进行估计,从而确定映射函数对特征进行映射。现有技术在进行参数估计时,多是通过利用特征的真实分布逼近参考特征的分布来进行。而本发明则通过添加先验信息,用GMM来描述复杂特征的分布,而这个GMM不是固定不变的,通过最小化它与参考特征GMM之间的巴氏距离来不断调整,从而将真实的复杂特征分布映射为理想状态下的特征分布,达到特征映射的目的。
(1)现有技术,只是利用了特征的真实分布,对特征的真实分布不加任何假设或操作便开始进行映射,这种映射方法下很难保证特征在映射过程中的映射方向。
(2)现有技术,在衡量复杂特征分布与参考特征分布时并未进行更多的考量。对于两个分布之间距离的衡定,巴氏距离是一个很好的选择,而这点现有技术并未加以利用。
(3)现有技术在对复杂特征进行处理时并未增加先验信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中师范大学,未经华中师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810572146.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:语音交互方法和装置
- 下一篇:一种基于语音识别的自动唤醒方法及电子设备