[发明专利]直接显示基音周期轨迹的基音周期谱图方法有效
申请号: | 201810846509.6 | 申请日: | 2018-07-27 |
公开(公告)号: | CN109346105B | 公开(公告)日: | 2022-04-15 |
发明(设计)人: | 张二华;唐伟;唐振民;王凯龙;张丽娜 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G10L25/24 | 分类号: | G10L25/24;G10L21/0272;G10L21/0208 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 王玮 |
地址: | 210094 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 直接 显示 基音 周期 轨迹 方法 | ||
本发明公开了一种直接显示基音周期轨迹的基音周期谱图方法。该方法首先分帧计算频谱和倒谱,用倒谱提取基音周期,倒谱峰值对应的时间就是基音周期,然后将倒谱的振幅转换为灰度,将倒谱的数据点转换为像素点。再根据相邻帧的基音周期具有相似性、渐变性和连续性的特点,将各帧倒谱的像素点沿垂直方向并排绘制,横轴为时间,纵轴为倒谱频率,构成基音周期谱图,使相邻帧的倒谱峰值互相靠近,形成一条明显的、有规律变化的基音周期轨迹。本发明能直接显示基音周期轨迹,不仅为语音分离提供关键线索,还能有效排除偏离基音周期轨迹的虚假倒谱峰值,提高了基音周期提取的精度。
技术领域
本发明属于语音信号处理领域,主要用于语音分离,具体地说,是一种直接显示基音周期轨迹的基音周期谱图方法。
背景技术
语音是人类进行信息交流最自然、最方便、最常用的方式,语音识别在人机交互中得到了广泛应用,尽管在静音环境下语音识别可达到很高的识别率,但在噪声环境下,语音识别的性能明显下降。在实际环境中,不可避免地夹杂着环境噪声及他人的语音,使语音信号的质量、清晰度和可懂度降低。采用语音分离技术可消除其它声音的干扰,提高语音的清晰度和可懂度。语音分离不同于语音去噪,语音去噪以消除噪声为目标,先消除噪声,余下的是有效信号;语音分离是以提取语音信号为目标,先从混合信号中提取语音信号,余下的是噪声。语音分离不仅适用于信噪分离,还适用于多人同时说话的混合语音分离,即“鸡尾酒会”问题。人类的听觉系统具有很强的语音分离能力,在嘈杂的鸡尾酒会上,人们能有效地倾听感兴趣的声音,甚至只用一只耳朵也能很好地辨别并专注于某个人的声音,排除其他语音的干扰,1953年英国科学家E.Cherry将该现象称为“鸡尾酒会”问题。
尽管目前人们对听觉感知的机理还未完全了解清楚,但通过一些听觉实验,已揭示了听觉感知的一些线索。1990年,加拿大麦吉尔大学的Bregman提出了听觉场景分析理论,认为听觉系统可以把声音分离为许多“流”,每个流来自同一个声源。听觉感知声音的过程可分为两个阶段,第一阶段是分段,将混合语音分解为一系列的听觉片段,每个听觉片段来自同一个声源,每一个听觉片段都代表一个重要的听觉事件。第二阶段是组合,把来自同一声源的各个听觉片段组合在一起,形成听觉感知流。组合分为同时组合和时序组合,同时组合是将同一个声源在同一时间产生的不同频率的声音分量组合在一起,时序组合是将来自同一个声源在不同时间产生的听觉片段按时间的先后顺序组合到一个声音流中。
组合的线索主要有以下几种:
(1)周期性或谐波性:一组具有谐波关系的声音成分倾向于组合在一起。
(2)连续性或平滑性:那些随时间能形成连续或平滑轨迹的频率成分,倾向于组合为同一个声源流。这种连续性或平滑性也适用于基音周期轨迹、信号强度、空间位置的连续变化等。
(3)开始/结束的同步性:若某些频率分量具有“同步开始”或“同步结束”的特征,则它们倾向于组合在一起。
(4)节奏:一组节奏相似的音调倾向于组合为同一个声源流。
(5)相同的空间位置:来自同一空间位置的声音分量倾向于组合为同一个声源流。
人们根据听觉场景分析理论对语音分离做了大量研究,取得了一系列成果,其中普遍采用的、最重要的线索是基音周期轨迹,基音周期轨迹在语音分离中起关键作用。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810846509.6/2.html,转载请声明来源钻瓜专利网。