[发明专利]音频起始点检测方法和装置有效

申请号：	201910151671.0	申请日：	2019-02-28
公开（公告）号：	CN110085214B	公开（公告）日：	2021-07-20
发明（设计）人：	李为	申请（专利权）人：	北京字节跳动网络技术有限公司
主分类号：	G10L15/05	分类号：	G10L15/05;G10L19/02;G10L25/87
代理公司：	北京竹辰知识产权代理事务所(普通合伙) 11706	代理人：	陈龙
地址：	100041 北京市石景山区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	音频起始检测方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开公开了一种音频起始点检测方法、装置、电子设备和计算机可读存储介质。其中该音频起始点检测方法包括：针对各频段，根据当前频段的语音频谱参数和从剩余频段中选取的预设个数频段的语音频谱参数确定语音频谱参数的均值，其中剩余频段为按照时序位于当前频段之前的所有频段；根据各频段对应的语音频谱参数和均值确定音频中的音符和音节的一个或多个起始点位置。本公开实施例由于在确定起始点位置时参照了多个频段对应的语音频谱参数，使得确定的语音频谱参数的均值更为准确，改善了参照语音频谱参数和均值构成的曲线中的信号偏移现象，从而可以准确的检测出音频中的音符和音节的起始点，减少了误检和漏检情况的发生。

技术领域

本公开涉及图像处理技术领域，尤其涉及一种音频起始点检测方法、装置、电子设备及计算机可读存储介质。

背景技术

音频起始点检测是一种应用于音频信号的信息抽取算法，目标是准确检测音符和音节的起始点位置。其中音符(note)特指音乐信号；音节(phone)特指语音人声信号。音频起始点检测在信号处理领域有很多重要的用途和应用前景，举例如下：对于人声和音乐音频的自动切分和自动标注、信息抽取、分段压缩、及互动娱乐的玩法。图1a和图1b表示了起始点检测，其中图1a为音频信号，图1b是检测出的起始点位置。

在现有技术中，通常通过计算音频信号对应语音频谱参数曲线，根据语音频谱参数曲线确定曲线的局部最大点，将改点对应的语音频谱参数与设置的门限值进行比较，如果大于门限值，则确定该点对应的位置为起始点位置。

但是，上述算法主要适用于边界清晰、节奏相对单一的音频信号(例如音符边界清晰、节奏相对单一的快节奏音乐)，而对于一些较为复杂节奏感不强的音频(例如多乐器混合的音乐、节奏比较慢的音乐以及人声)，上述检测算法就不能准确的检测出边界，就会出现频繁的误检和漏检。

发明内容

第一方面，本公开实施例提供一种音频起始点检测方法，包括：

根据与音频的音频信号对应的频域信号确定各频段对应的语音频谱参数；

针对各频段，根据当前频段的语音频谱参数和从剩余频段中选取的预设个数频段的语音频谱参数确定语音频谱参数的均值，将所述均值作为所述当前频段的均值，其中所述剩余频段为按照时序位于所述当前频段之前的所有频段；

根据所述各频段对应的语音频谱参数和均值确定起始点位置。

进一步的，所述根据所述各频段对应的语音频谱参数和均值确定所述音频中的音符和音节的一个或多个起始点位置，包括：

计算各频率的语音频谱参数与均值的差值；

根据所述各频率的差值确定所述音频中的音符和音节的一个或多个起始点位置。

进一步的，所述根据所述各频率的差值确定所述音频中的音符和音节的一个或多个起始点位置，包括：

根据所述各频率的差值绘制语音频谱参数曲线；