[发明专利]音频分析方法、装置、设备及存储介质在审
申请号: | 202310120151.X | 申请日: | 2023-02-02 |
公开(公告)号: | CN116129934A | 公开(公告)日: | 2023-05-16 |
发明(设计)人: | 魏耀都;郑羲光;张晨 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G10L25/03 | 分类号: | G10L25/03;G10L25/18;G10L15/06;G10L17/04;G10L15/26;G10L25/27;G10L15/02 |
代理公司: | 北京中博世达专利商标代理有限公司 11274 | 代理人: | 申健 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 分析 方法 装置 设备 存储 介质 | ||
1.一种音频分析方法,其特征在于,包括:
获取目标音频的干声音频数据;
将所述干声音频数据输入至目标音素识别模型中进行音素识别处理,得到目标音素时间序列;所述目标音素识别模型为基于多个语种进行同音合并后的音素集合训练得到的;所述目标音素时间序列包括所述干声音频数据中各音素发音时段对应的至少一个候选识别音素;
将所述干声音频数据输入至目标文本识别模型中进行文本识别处理,得到目标文字时间序列;所述目标文本识别模型为基于所述目标音频的歌词信息训练得到的;所述目标文字时间序列包括所述干声音频数据中各文字发音时段对应的目标识别文字;
确定所述干声音频数据的音频信号特征信息;
根据所述目标音素时间序列、所述目标文字时间序列和所述音频信号特征信息,确定所述干声音频数据的音频分析结果;所述音频分析结果用于表征所述目标音频的发音节奏、发音力度和发音精度。
2.根据权利要求1所述的音频分析方法,其特征在于,所述确定所述干声音频数据的音频信号特征信息,包括:
将所述干声音频数据划分为多个预设长度的音频数据帧;
确定各所述音频数据帧的基音频率值和响度值,得到所述音频信号特征信息。
3.根据权利要求2所述的音频分析方法,其特征在于,所述根据所述目标音素时间序列、所述目标文字时间序列和所述音频信号特征信息,确定所述干声音频数据的音频分析结果,包括:
对所述目标文字时间序列进行音素切分处理,得到切分后音素时间序列;所述切分后音素时间序列包括各所述目标识别文字对应的至少一个切分后音素,以及各所述切分后音素的开始时刻和终止时刻;
基于所述切分后音素时间序列和各所述音频数据帧的基音频率值,确定用于表征所述目标音频的发音节奏的节拍点时间序列;
根据所述节拍点时间序列中各音素开始时刻和终止时刻之间的音频数据帧的响度值,确定所述节拍点时间序列中各音素的响度值,得到用于表征所述目标音频的发音力度的响度值时间序列;
基于所述切分后音素时间序列和所述目标音素时间序列,确定用于表征所述目标音频的发音精度的精度值时间序列。
4.根据权利要求3所述的音频分析方法,其特征在于,所述基于所述切分后音素时间序列和各所述音频数据帧的基音频率值,确定用于表征所述目标音频的发音节奏的节拍点时间序列,包括:
将各所述切分后音素中预设类型音素的开始时刻确定为候选节拍点,得到与多个所述预设类型音素一一对应的多个所述候选节拍点;所述预设类型音素包括元音音素;
基于各所述音频数据帧的基音频率值对多个所述候选节拍点进行更新处理,得到与多个所述预设类型音素一一对应的多个更新后节拍点;所述更新后节拍点对应的音频数据帧的基音频率值大于预设阈值;
将多个所述预设类型音素的开始时刻对应调整为多个所述更新后节拍点,得到所述节拍点时间序列。
5.根据权利要求3所述的音频分析方法,其特征在于,所述根据所述节拍点时间序列中各音素开始时刻和终止时刻之间的音频数据帧的响度值,确定所述节拍点时间序列中各音素的响度值,得到用于表征所述目标音频的发音力度的响度值时间序列,包括:
按照响度值从大到小的顺序,对所述节拍点时间序列中各音素开始时刻和终止时刻之间的音频数据帧进行排序,得到所述节拍点时间序列中各音素对应的响度值排序结果;
将各响度值排序结果中的前预设数量个响度值的平均值,确定为所述节拍点时间序列中各音素对应的响度值,得到所述响度值时间序列。
6.根据权利要求3所述的音频分析方法,其特征在于,所述基于所述切分后音素时间序列和所述目标音素时间序列,确定用于表征所述目标音频的发音精度的精度值时间序列,包括:
确定各所述音素发音时段对应的至少一个候选识别音素中,符合预设条件的候选识别音素的第一数量;
将各所述音素发音时段对应的第一数量和第二数量之间的比值,确定为所述切分后音素时间序列中各所述切分后音素的精度值,得到所述精度值时间序列;所述第二数量为所述发音时段对应的至少一个候选识别音素的数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310120151.X/1.html,转载请声明来源钻瓜专利网。