[发明专利]基于非均匀子带分离方差的语音端点检测方法及装置在审
申请号: | 201910913537.X | 申请日: | 2019-09-25 |
公开(公告)号: | CN110610724A | 公开(公告)日: | 2019-12-24 |
发明(设计)人: | 黄翔东;曹璐;刘子楠 | 申请(专利权)人: | 天津大学 |
主分类号: | G10L25/87 | 分类号: | G10L25/87;G10L25/18 |
代理公司: | 12201 天津市北洋有限责任专利代理事务所 | 代理人: | 李林娟 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 子带 语音端点检测 实际频率 语音信号 幅值谱 方差 转换 模数转化器 前导 计算各帧 上限频率 下限频率 有效频带 中心频率 非均匀 鲁棒性 上下限 双门限 频谱 分帧 内插 噪声 判决 | ||
本发明公开了一种基于非均匀子带分离方差的语音端点检测方法及装置,方法包括:计算分帧后的各帧语音信号的幅值谱;将语音信号有效频带转换到Mel域,并在Mel域上将其均匀分为q个子带,再将各子带的中心频率、下限频率、上限频率转换到以Hz为单位的实际频率;通过内插将幅值谱扩展,并结合转换后的实际频率计算每个子带内频谱的平均幅值,并求取子带均值,进而计算各帧子带方差;利用前导无话段计算出噪声的平均方差值,进一步设置上下限阈值,用双门限进行判决,得到最终的语音端点检测结果。装置包括:模数转化器、DSP芯片。本发明的实现方法效率高,具有较强的鲁棒性。
技术领域
本发明涉及数字信号处理技术领域,尤其涉及一种基于非均匀子带分离方差的语音端点检测方法及装置,具体涉及在安静环境和含有噪声的情况下,怎样确定语音的起始点及终止点。
背景技术
语音端点检测(Endpoint Detection),也称为语音活动性检测(Voice ActivityDetection)通常用于语音处理系统的前端,其目的是在各种环境噪声中,将采样信号数据中的有效语音信号和其他非所需的干扰信号分离开来,为后续进一步增强语音处理性能奠定基础。通常需要从样本中提取出抗噪鲁棒性较好的特征,用来分辨语音信号和非语音信号,并确定各语音段的起始点和终止点,对于现今广泛应用的语音智能识别和语音增强系统来说,端点检测正确率是整个系统性能优良的重要参数之一[1]。
从Bell实验室最先提出的语音信号端点检测开始,这项技术在历经了将近半个世纪的发展之后已经日趋成熟,众多优秀方法不断涌现。大致可分为基于门限和基于模型两大类:基于门限的方法通过提取语音不同于噪声的时域特征值,并将其与所设定的门限进行比较,依此做出最终判决[2]。主要可以分为时域、频域和倒谱域参数,比如:能量值、过零率、倒谱系数、谱距离、谱熵值等[3]。相较于模型的方法,该方法操作简单,容易实现,但检测精度低;基于模型的方法较复杂,通常需要把语音信号变换到另一个域(如离散余弦变换域),基于此从中提取多维的特征(如Mel倒谱等),这种方法非常依赖于建立的模型,并且使用的特征维数较大,为适应噪声和干扰的变化,从暂态到稳态需较长过渡时间,且计算复杂度较高,故不宜于实时实现(如不适用于助听器在线实时检测语音端点的情况)。
对于纯净语音信号,用以上提及的两类方法,都能够很准确找出语音的边界点。但实际上绝大部分语音信号都是处于不止一种类型的复杂噪声背景中的,在噪音背景下有效区分出语音段及噪音段就成为语音端点检测的首要问题。具体对门限判决方法而言,需要首先设定一个阈值标准,当语音信号的判定参数超过该阈值标准时则认为是语音信号,反之则是噪声信号。语音信号特征参数的选取至关重要,好的检测方法需要满足以下几个特点:
1)准确性:对语音段的边界点的判定必须要准确;2)稳定性:检测算法必须有着较好的鲁棒性,抗噪声的性能要强;3)自适应性:判决标准要有自适应的特性,而不能仅仅固定门限阈值判决;4)计算复杂度:检测算法的运算强度要低,计算量小,便于硬件的实现。
参考文献
[1]赵力.语音信号处理[M].3版.北京:机械工程出版社,2016.n
[2]胡航.语音信号处理[M].哈尔滨:哈尔滨工业大学出版社,2000:163-17.
[3]苏敏.低信噪比情况下语音增强技术及相关技术研究[D].南京邮电大学,2018.
[4]Mark Marzinzik etc.Speech Pause Detection for Noise SpectrumEstimation by Tracking Tracking Power Envelope Dynamics.IEEE Transactions onSpeech and Audio Processing,2002,10(2):109-111.
[5]冯硕.自适应的语音端点检测技术研究[D].北京邮电大学,2008.
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910913537.X/2.html,转载请声明来源钻瓜专利网。