[发明专利]一种音频句子边界检测方法有效

申请号：	201810101218.4	申请日：	2018-02-01
公开（公告）号：	CN108364637B	公开（公告）日：	2021-07-13
发明（设计）人：	张栋;彭建云;肖小强	申请（专利权）人：	福州大学
主分类号：	G10L15/04	分类号：	G10L15/04;G10L15/08;G10L25/18;G10L25/45;G06K9/62
代理公司：	福州元创专利商标代理有限公司 35100	代理人：	蔡学俊
地址：	350002 福***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种音频句子边界检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种音频句子边界检测方法，其特征在于，按照如下步骤实现：

步骤S1：将输入的清唱歌声音频信号进行预处理，预处理方式包括：滤波、预加重和归一化；

步骤S2：对预处理后的歌声音频x(n)进行CQT变换得到频域信号X_CQT(k)；

步骤S3：取频域信号X_CQT(k)的50Hz-5kHz分量，将其按频率均等划分为八个子带，分别计算每个子带谱熵H(m)；

步骤S4：采用单参数的双门限法反向端点检测将歌声音频x(n)分别标注为语音段起点序列Sp(n)和终点序列Ep(n)；具体实现步骤如下：

步骤S41：将平滑滤波后子带谱熵H(m)的最小值记为H_min，以及前250ms的均值记为H_mean，设置高阈值门限TH＝0.99(H_mean-H_min)+H_min，低阈值门限TL＝0.96(H_mean-H_min)+H_min；

步骤S42：以子带谱熵H(m)为参数，通过单参数的双门限法反向端点检测对歌声音频x(n)进行端点标注，将语音段起点序列记为Sp(n)，终点序列记为Ep(n)；

步骤S5：根据肘部法则设置类簇的个数为K＝2，将歌声段长度序列S(n)和非歌声段长度序列M(n)依次对应组合成样本数据集T(n)＝{(S(n),M(n))|0＜n＜L}；所述歌声段长度序列S(n)为：

S(n)＝Ep(n)-Sp(n),0＜n＜L；

非歌声段长度序列M(n)为：

M(n)＝Sp(n+1)-Ep(n),0＜n＜L；

其中，L为起点序列Sp(n)和终点序列Ep(n)的长度；

步骤S6：采用K-means聚类分析将样本数据集T(n)分为K类，并输出K个类簇和质心w₁,w₂,…,w_k；

步骤S7：在K个类簇中，将质心最大的类簇作为音频句子边界的检测结果，以该类簇中的数据对歌声音频x(n)进行句子边界标注得到句子边界序列。

2.根据权利要求1所述的一种音频句子边界检测方法，其特征在于，在所述步骤S2中，所述频域信号X_CQT(k)为：

其中，是窗长为N_k的汉宁窗函数；N_k＝[Q*f_s/f_k]，[·]表示向上取整；Q＝(2^1/b-1)^-1，b表示相邻的倍频之间频率点个数，设置为12；f_s为采样频率；f_k为第k个半音的中心频率，f_k＝f₀*2^k/b，f₀为基础频率。

3.根据权利要求1所述的一种音频句子边界检测方法，其特征在于，在所述步骤S3中，所述子带谱熵H(m)为：

其中，式中P(l,m)表示第m帧的第l条谱线的子带频谱概率密度，eps为保证对数的运算对象不为零而引入的一个小数。

4.根据权利要求1所述的一种音频句子边界检测方法，其特征在于，所述步骤S6，具体实现步骤如下：

步骤S61：采用K-means聚类中的K-means++算法从T(n)中选出距离最远的K个点分别作为初始聚类中心c₁,c₂,…,c_k；

步骤S62：计算每个数据点到K个聚类中心的欧氏距离d(T(i),c_j)，根据距离质心最近的原则，如果d(T(i),c_j)是该样本数据到K个聚类中心距离中的最小值，那么T(i)∈c_j；

步骤S63：计算K个类簇的质心w₁,w₂,…,w_k，直到对任意的i∈{1,2,3,…,k}，都有w_i＝c_i成立，则聚类结束；否则令c_i＝w_i,i∈{1,2,3,…,k}，继续进行聚类；

步骤S64：输出K个类簇和质心w₁,w₂,…,w_k。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于福州大学，未经福州大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810101218.4/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载