[发明专利]语音信号的特征获取方法及装置有效
申请号: | 202110704314.X | 申请日: | 2021-06-24 |
公开(公告)号: | CN113436642B | 公开(公告)日: | 2022-06-14 |
发明(设计)人: | 张涛;林丽琴;孙浩 | 申请(专利权)人: | 燕山大学 |
主分类号: | G10L25/18 | 分类号: | G10L25/18;G10L25/21;G10L25/45 |
代理公司: | 北京智信四方知识产权代理有限公司 11519 | 代理人: | 刘真 |
地址: | 066000 河北*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 信号 特征 获取 方法 装置 | ||
本公开实施例公开了一种语音信号的特征获取方法及装置,方法包括:对待分析的语音信号进行时频化处理,获取语音信号的语谱图;统计获取语谱图内各能量点的方向信息;根据语谱图内各能量点的方向信息,基于核密度估计算法建立形式背景,形式背景以能量点作为对象,能量点所含有的方向区间作为属性,用于描述语谱图中能量点与其所含有的方向区间之间的对应关系;根据形式背景,建立语音信号的方向共生属性拓扑图,方向共生属性拓扑图用于描述形式背景中属性对之间的共生关系。本技术方案可以用图的形式显示语音信号更加详细的方向信息,检测精度高,可解释性强,能有效分析语音信号的语谱图内能量点的方向值复杂多变的情况。
技术领域
本公开涉及数据处理技术领域,具体涉及一种语音信号的特征获取方法及装置。
背景技术
语音作为人与人之间交流最普遍的方式,包含了说话人性别、年龄、情感、稳定与否等许多有效且重要的信息。由于语音中包含丰富的信息,并且语音数据采集的可行性较高,提取语音中的不同特征以表示所需要的信息,在当前人工智能、医学诊断等多个领域都具有可观的应用前景。尤其在医疗领域,语音检测方法具有采集方便、非接触、无创等优点,在操作和采集上与其他信号相比有着明显的优势,因此通过语音诊断相关病症备受瞩目。
在目前现有的能够表征语音信号深层信息的特征中,传统声学特征虽然物理意义明确、可解释性强,但由于传统声学特征只针对时域或者频域提取特征,从而忽略了语音中其它因素带来的直接影响,导致检测精度不高。而基于深度学习获取的语音信号特征虽然检测精度高,但深度学习存在可解释性差、模型的黑盒问题,而且医学领域普遍存在数据集规模较小的局限性,基于深度学习进行语音分析研究,存在过拟合的风险。
发明内容
本公开实施例提供一种语音信号的特征获取方法及装置。
第一方面,本公开实施例中提供了一种语音信号的特征获取方法,包括:
对待分析的语音信号进行时频化处理,获取所述语音信号的语谱图;
统计获取所述语谱图内各能量点的方向信息;
根据所述语谱图内各能量点的方向信息,基于核密度估计算法建立形式背景,所述形式背景以能量点作为对象,能量点所含有的方向区间作为属性,用于描述所述语谱图中能量点与其所含有的方向区间之间的对应关系;
根据所述形式背景,建立所述语音信号的方向共生属性拓扑图,所述方向共生属性拓扑图用于描述所述形式背景中属性对之间的共生关系。
进一步的,所述对待分析的语音信号进行时频化处理,获取所述语音信号的语谱图,包括:
按照以下公式对所述语音信号进行短时傅立叶变换:
其中,x(u)为语音信号,w(u-t)为窗函数,t表示时间,f表示频率,u-t∈[0,L-1],所述L为所述窗函数的步长;
以P(t,f)作为所述语音信号的语谱图的表达式,按照以下公式计算P(t,f):
P(t,f)=|STFT(t,f)|2;
所述P(t,f)表示在时刻t和频率f下的能量值。
进一步的,所述w(u-t)为汉明窗的窗函数。
进一步的,所述统计获取所述语谱图内各能量点的方向信息,包括:
对所述语谱图按照以下公式如下进行滑窗处理:
P(t,f)=[P1(t,f),P2(t,f),…,Pn(t,f)];
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于燕山大学,未经燕山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110704314.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:显示模组和显示装置
- 下一篇:一种电池及电池的制备方法