[发明专利]基于集成特征和神经网络的语音可视化方法无效

专利信息
申请号: 201110200635.2 申请日: 2011-07-18
公开(公告)号: CN102231281A 公开(公告)日: 2011-11-02
发明(设计)人: 韩志艳;伦淑娴;王健;王东;于忠党;王巍;邰治新 申请(专利权)人: 渤海大学
主分类号: G10L21/06 分类号: G10L21/06
代理公司: 锦州辽西专利事务所 21225 代理人: 李辉
地址: 121000 辽宁省*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 集成 特征 神经网络 语音 可视化 方法
【说明书】:

技术领域

发明涉及一种汉语普通话的可视化方法,特别涉及一种基于集成特征和神经网络的语音可视化方法。

背景技术

语音是语言的声学表现,是人类交流信息最自然、最有效、最方便的手段,也是人类思维的一种依托。而对聋哑人来说,语言交流变成一件很难实现的事情,一部分聋哑人不能说话是因为他们的听觉器官遭到破坏,不能将语音信息采集到大脑。研究表明,人类听觉系统和视觉系统是两个性质不同的并具有互补性的信息系统,视觉系统是一个高度并行的信息接收和处理系统,人类眼球中视网膜上的数百万个锥状细胞通过纤维状神经组织与大脑相连,形成一个高度并行的信道,视觉信道接受信息的速率是很高的,据测量和估算,看电视时的信息接收速率大致可达到2×104b/s,这比听觉系统听语音时的信息接收速度高出上千倍,因此人们相信人类所获得的信息有70%是通过视觉获得的说法。所以对于聋哑人人来说,这无疑就是一个很大的助手,听觉的缺陷由视觉来补偿,语音不仅能听见,还可以通过多种其他形式使聋哑人“看”见。

1947年R.K.Potter和G.A.Kopp等人就提出了一种可视化方法—语谱图,随后有不同的语音研究专家开始研究改进这种语音可视化方法,比如在1976年L.C.Stewart等人提出了有色谱图和1984年G.M.Kuhn等人提出了对聋人进行训练的实时的语谱图系统,以及1986年P.E.Stern、1998年F.Plante和2008年R.Steinberg等人也提出了许多语谱图的改进方法,但是显示的语谱图的专业性很强,而且很难辨别记忆。尤其是对于同一个语音不同的人来说,甚至是同一个语音同一个人来说都有可能造成语谱图的变化,对于不同环境下录制的语音信号其鲁棒性能更为不好。

此外,还有一些学者对人的发音器官的运动变化以及面部表情的变化来实现语音可视化,有效地剖析了人的发音过程,但就其语音可懂度而言,还难以达到理想效果,除极少数专家以外,人们很难直接通过观察发音器官的运动和面部表情的变化而准确地感知语音。

发明内容

本发明所要解决的技术问题是提供一种简单易懂且高鲁棒性的基于集成特征和神经网络的语音可视化方法,通过该方法可帮助听力障碍者进行语言训练,建立、完善听觉认知,形成正确的言语反射,重建听觉言语链,可以最大可能的恢复自身的语音功能。

一种基于集成特征和神经网络的语音可视化方法,包括以下步骤:

1、语音信号预处理

通过麦克风输入语音信号,由处理单元采样量化后获得相应语音数据,然后进行预加重、分帧加窗和端点检测;

2、特征提取

(2.1) 采用基于Hilbert-Huang变换的方法来估算预处理后的语音信号共振峰频率;

(2.2) 计算出预处理后语音信号的基音频率曲线的一次斜率、二次斜率、曲线的谷点和曲线的平坦度作为声调特征参数;

(2.3)计算出基于MUSIC和感知特性的鲁棒特征参数(PMUSIC-MFCC):PMUSIC-MFCC1~PMUSIC-MFCC 12;

(2.4)计算出基于小波包变换的语音信号鲁棒特征参数(WPTC):WPTC1~WPTC20;

3、特征优化

采用基于正交实验设计的语音识别特征参数优化的方法对所述的PMUSIC-MFCC1~PMUSIC-MFCC 12和WPTC1~WPTC20进行优化,得到优化特征参数组合;

4、神经网络设计

所述的神经网络是由神经网络Ⅰ和神经网络Ⅱ组成,其中神经网络Ⅰ的输入层有4个神经元,输出层有2个神经元,神经网络Ⅱ的输入层的数量与优化特征参数组合的数量相同,输出层有n个神经元,n为7、8或9;

5、位置信息映射

将优化特征参数组合作为神经网络Ⅱ的输入,将特征编成具有m个码的方阵,2n-1≤m≤2n,按着由左到右、由上到下的顺序依次对应着图像中的一个位置并用“0”、“1”组合进行编码,每个位置对应一个无调单语音;

6、主颜色编码

采用共振峰特征来对主颜色信息进行编码,把所有的共振峰特征值F1、F2、F3分别求平均值,然后通过R=5F1/F3、G=3F3/5F2、B=F2/3F1,将其转换成主颜色信息;

7、图案信息编码

采用声调特征来对图案信息进行编码,四个声调特征参数作为神经网络Ⅰ的输入,神经网络Ⅰ的输出即为相应的图案信息,用00、01、10、11分别表示阴平、阳平、上声和去声;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渤海大学,未经渤海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110200635.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top