[发明专利]一种语谱图的生成方法、装置、电子设备及存储介质有效
申请号: | 202110093432.1 | 申请日: | 2021-01-25 |
公开(公告)号: | CN112420072B | 公开(公告)日: | 2021-04-27 |
发明(设计)人: | 曹岩岗;王黎明 | 申请(专利权)人: | 北京远鉴信息技术有限公司 |
主分类号: | G10L25/21 | 分类号: | G10L25/21;G10L25/51 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 刘凤 |
地址: | 100000 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语谱图 生成 方法 装置 电子设备 存储 介质 | ||
本申请提供了一种语谱图的生成方法、装置、电子设备及存储介质,其中,该方法包括:基于待处理语音片段中包括的语音样点的数量,确定待处理语音片段对应的第一帧移;采用与第一帧移的大小相匹配的调整方式,对待处理语音片段对应的初始帧数进行调整,得到调整后的目标帧数;基于待处理语音片段对应的帧长以及第二帧移,将待处理语音片段中包括的语音样点划分至对应的语音样点集合中;针对每个语音样点集合,根据该语音样点集合内每个语音样点的初始振幅,确定该语音样点集合对应的功率谱;基于各个语音样点集合分别对应的功率谱,生成待处理语音片段的语谱图。本申请适用于多种时长的语音片段,语谱图的生成效率高,生成的语谱图的质量好。
技术领域
本申请涉及语音处理技术领域,具体而言,涉及一种语谱图的生成方法、装置、电子设备及存储介质。
背景技术
语谱图是一种语音的短时频域表示方法,可以表征不同时间和频率刻度的能量分布,是语音的直观二维展示,在声纹鉴定、语音信号处理等领域中起着重要作用。
现阶段,在处理不同时长的语音片段时,使用固定的帧移生成语谱图,不同时长的语音片段包括的语音样点数量不同,在语音样点数冗余时,使用固定帧移会降低计算速度,在语音样点数不足时,使用固定帧移会降低语谱图的质量。因此,只有在样点数处于一定的范围内,才会快速地生成高质量的语谱图。
实际中,语音片段的时长并不是固定的,因此,上述语谱图的生成方式并不能适用所有时长的语音片段,在语音时长过长或者过短时,会造成语谱图的生成效率低,或者,生成的语谱图的质量差。
发明内容
有鉴于此,本申请实施例的目的在于提供一种语谱图的生成方法、装置、电子设备及存储介质,能够基于与待处理语音片段相匹配的帧移生成语谱图,该种语谱图的生成方式适用于多种时长的语音片段,语谱图的生成效率高,生成的语谱图的质量好。
第一方面,本申请实施例提供了一种语谱图的生成方法,所述生成方法包括:
基于待处理语音片段中包括的语音样点的数量,确定所述待处理语音片段对应的第一帧移;
采用与所述第一帧移的大小相匹配的调整方式,对所述待处理语音片段对应的初始帧数进行调整,得到调整后的目标帧数;
基于所述待处理语音片段对应的帧长以及第二帧移,将所述待处理语音片段中包括的语音样点划分至对应的语音样点集合中;其中,所述第二帧移为所述第一帧移取整后的值;所述语音样点集合的数量等于所述目标帧数;
针对每个语音样点集合,根据该语音样点集合内每个语音样点的初始振幅,确定该语音样点集合对应的功率谱;
基于各个语音样点集合分别对应的功率谱,生成所述待处理语音片段的语谱图。
在一种可能的实施方式中,所述基于待处理语音片段中包括的语音样点的数量,确定所述待处理语音片段对应的第一帧移,包括:
根据所述待处理语音片段中包括的语音样点的数量,以及所述待处理语音片段对应的帧长和初始帧数,确定所述第一帧移。
在一种可能的实施方式中,所述采用与所述第一帧移的大小相匹配的调整方式,对所述待处理语音片段对应的初始帧数进行调整,得到调整后的目标帧数,包括:
若所述第一帧移大于等于第一阈值,则将所述初始帧数确定为所述目标帧数;
若所述第一帧移大于等于第二阈值,并且小于所述第一阈值,则将所述第一帧移更新为预设的特定帧移,并根据所述待处理语音片段中包括的语音样点的数量、所述帧长以及所述特定帧移确定所述目标帧数;
若所述第一帧移小于所述第二阈值,则将预设的特定帧数确定为所述目标帧数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京远鉴信息技术有限公司,未经北京远鉴信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110093432.1/2.html,转载请声明来源钻瓜专利网。