[发明专利]一种多尺度自适应语音端点检测方法有效
申请号: | 201810679766.5 | 申请日: | 2018-06-27 |
公开(公告)号: | CN108962225B | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 张志刚;黄军勤 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G10L15/04 | 分类号: | G10L15/04;G10L25/78;G10L25/87 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 谈耀文 |
地址: | 710048*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 尺度 自适应 语音 端点 检测 方法 | ||
1.一种多尺度自适应语音端点检测方法,其特征在于,包括步骤:读取数字音频信号;计算数字音频信号的背景信号阈值;对数字音频信号进行粗检,检出语音信号端点待选区域;对待选区域进行细检,检出语音信号端点;具体包括以下步骤:
步骤1,读取数字音频信号;
步骤2,读取数字音频信号起始部分内容,以短时幅值和短时幅值前向差分函数为特征,采用大尺度计算背景信号阈值Hb;
步骤3,对数字音频信号进行大尺度粗检,检出语音信号的起始点待选区域与终止点待选区域;
步骤4,对步骤3检测出的起始点待选区域与终止点待选区域进行小尺度细检,检出语音信号起始点与终止点;
所述步骤2具体包括以下步骤:
步骤2.1,对整个待测数字音频信号,按大尺度计算短时幅值,如式1:
式中:xn(i)表示第n帧内第i个数字音频信号的幅值,N为帧长,M(n)表示第n帧的短时幅值;
步骤2.2,计算待测数字音频信号前m帧的短时幅值前向差分函数F1(n),其中16≤m≤24,如式2:
步骤2.3,找出短时幅值前向差分函数F1(n)的最大值,以及对应的帧号k;
步骤2.4,计算前k个帧的短时幅值的平均值,该平均值即为背景信号阈值Hb。
2.如权利要求1所述的多尺度自适应语音端点检测方法,其特征在于,所述步骤3具体包括以下步骤:
步骤3.1,根据阈值Hb进行逐帧比较,若第i帧及其后连续P帧,其短时幅值都大于Hb,则取从(i-1)帧开始的w个帧,作为起始点的待选区域;其中,4≤P≤6,4≤w≤6;
步骤3.2,根据阈值Hb进行逐帧比较,若第i帧及其后连续的P帧,其短时幅值都小于Hb,则取从(i)帧开始的x帧,作为终止点的待选区域;其中,4≤P≤6,4≤x≤6。
3.如权利要求1所述的多尺度自适应语音端点检测方法,其特征在于,所述步骤4具体包括以下步骤:
步骤4.1,对步骤3检出的起始点待选区域与终止点待选区域,按照小尺度计算短时幅值,如式1;
式中:xn(i)表示第n帧内第i个数字音频信号的幅值,N为帧长,M(n)表示第n帧的短时幅值;
步骤4.2,计算起始点待选区域与终止点待选区域的逆向差分函数,如式3:
步骤4.3,对起始点待选区域,找出逆向差分函数F2(n)的最大值,以及其对应的帧号y,则y帧为起始点;
步骤4.4,对终止点待选区域,找出逆向差分函数F2(n)的最大值,以及其对应的帧号z,则z帧为终止点。
4.如权利要求1所述的多尺度自适应语音端点检测方法,其特征在于,还包括步骤5,合并步骤4检出的语音段。
5.如权利要求4所述的多尺度自适应语音端点检测方法,其特征在于,所述步骤5的具体过程为:找出第一个起始点与最后一个终止点,去除中间所有端点。
6.如权利要求4所述的多尺度自适应语音端点检测方法,其特征在于,所述步骤5的具体过程为:步骤5.1:设定一个间隙阈值Hn,若前一个语音段终止点和下一个语音段起始点之间的距离<Hn,则将这两段合并为一段,否则不合并;步骤5.2:循环步骤5.1的操作,直至合并完毕。
7.如权利要求1所述的多尺度自适应语音端点检测方法,其特征在于,所述步骤2、步骤3中,大尺度帧长为256,帧移为128。
8.如权利要求1所述的多尺度自适应语音端点检测方法,其特征在于,所述步骤4中,小尺度帧长为128,帧移为64。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810679766.5/1.html,转载请声明来源钻瓜专利网。