[发明专利]一种基于汉语言语测听动态词表的汉语言语自动测听方法有效
申请号: | 201210549152.8 | 申请日: | 2012-12-17 |
公开(公告)号: | CN103054586A | 公开(公告)日: | 2013-04-24 |
发明(设计)人: | 田业;贾珈;蔡莲红 | 申请(专利权)人: | 清华大学 |
主分类号: | A61B5/12 | 分类号: | A61B5/12 |
代理公司: | 北京众合诚成知识产权代理有限公司 11246 | 代理人: | 薄观玖 |
地址: | 100084 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 汉语 言语 动态 词表 自动 方法 | ||
1.一种基于汉语言语测听动态词表的汉语言语自动测听方法,其特征在于,是在一个汉语言语测听系统中依次按以下步骤实现的:
步骤(1),构建一个包括中央处理器、鼠标、键盘、图形显示器、外存设备和听力计的汉语言语测听系统,所述中央处理器的各输入端分别与所述键盘、鼠标及听力计的输出端相连,所述听力计的输入端与扬声器的输出端相连,所述中央处理器的各其他输出/输入端与图形显示器和外存设备分别互连;
步骤(2),在所述中央处理器中,依次按以下步骤构造一个汉语普通话言语测听动态词表,其中包括一个指定长度的必测词表和一个不定长度的隐含词表:
步骤(2.1),依次按以下步骤构造一个所述的指定长度的必测词表:
步骤(2.1.1),选择测试文件方式的测试项,每个所述测试项在汉语口语交流中出现的频次都排名在前2000以内,所述测试项的集合要覆盖汉语普通话所有声韵调的组合,并为每个所述测试项录制成一个相应语音文件;
步骤(2.1.2),对步骤(2.1.1)得到的语音文件分别标注每个音节中声母和韵母的起始位置,并把声母部分的语音信号重新存储为一个声母语音文件,把韵母部分的语音信号重新存储为一个韵母语音文件;
步骤(2.1.3),依次按以下步骤在听感上对声母进行分类:
步骤(2.1.3.1),按以下步骤从步骤(2.1.2)得到的声母语音文件中提取如下所述声学特征参数:声母过零率参数ZCR、声母MFCC参数M以及声母Bark频带能量比率参数Br,所述的ZCR,M及Br是按照以下步骤得到的:
步骤(2.1.3.1.1),所述的声母过零率参数ZCR按以下公式计算:
其中K为声母时域语音信号采样点个数,k为声母时域语音信号采样点的索引,k=2,3,…,K,x(k)为第k个声母时域语音信号采样值,sgn(x(k))表示取x(k)的符号,x(k)为正数时取1,x(k)为负数时取-1,否则取0,ZCR为声母过零率参数;
步骤(2.1.3.1.2),所述的声母Bark频带能量比率参数Br按以下步骤得到:
步骤(2.1.3.1.2.1),把声母语音信号分帧、加窗后按下列公式求声母FFT能量谱:
其中,K为声母时域语音信号采样点个数,k为声母时域语音信号采样点的索引,k=0,1,…,K-1,x(k)为第k个声母时域语音信号采样值, n为声母频域信号的索引,计算中声母频域信号总数与时域信号总数相同,n=0,1,…,K-1,j为频数单位,e为自然对数的底,为谐波频率,为第n次谐波序列,F[n]为转换后的第n个FFT频域值,取其幅值的对数值作为FFT能量值,所有FFT能量值组成该声母语音信号的FFT能量谱,F[2n']为偶数项频域值,F[2n'+1]为奇数项频域值,;
步骤(2.1.3.1.2.2),令x1,x2,…,x21分别为所述声学FFT能量谱中,每一个Bark频带i的累计能量分量和,共有21个,i=1,2,…,21;
步骤(2.1.3.1.2.3),按下式计算频带i的累计能量分量和占全部频带能量的比例yi:
步骤(2.1.3.1.2.4),令yi=y1,y2,…,yi,…,y21,得到以y1,y2,…,y21作为声母的21维Bark频带能量比率参数;
步骤(2.1.3.1.3),声母MFCC参数M按以下步骤得到:
步骤(2.1.3.1.3.1),按步骤(2.1.3.1.2.1)对声母语音信号做FFT变换,得到FFT变换后的频谱,计算该频谱的幅值的平方,得到离散的功率谱;
步骤(2.1.3.1.3.2),采用如下三角滤波器组在频域内对步骤(2.1.3.1.3.1)得到的离散的功率谱进行带通滤波,并将滤波后的结果取对数:
其中f(u)为第u个频带的中心频率,u为频带的索引,u=0,1,…,U-1,U为频带总数,取U=24,v为离散频率分量值,v=0,1,…, Tu(v)为第u个频带对应的滤波器组对频率v的频率响应;
步骤(2.1.3.1.3.3),将步骤(2.1.3.1.3.2)得到的结果通过以下离散余弦变换DCT公式计算,得到12阶的MFCC系数M:
其中,w(u')为步骤(2.1.3.1.3.2)得到的对数值序列,表示第u'个余弦分量,Mu为第u个MFCC参数,(M1,M2,…,M12)构成12阶MFCC参数;
步骤(2.1.3.2),对步骤(2.1.3.1.1)至步骤(2.1.3.1.3)得到的声学特征参数按下式进行归一化处理:
其中,fnew是归一化处理后的包括ZCR、Mu、yi在内的各声学特征参数,fsource是归一化处理之前的声学特征参数,Fsource为同一维度i的未处理时的声学特征参数集合;
步骤(2.1.3.3),按下式计算每个语音对应的清晰度ATLh:
其中Ca为常值,取值为Ca=0.9027,c0为参数ZCR的系数,取值为c0=-0.0585,Bri表示第i维Bark频带能量比率参数,Bri=yi,bi为参数Bri的系数,取值分别为b9=0.0648,b10=0.0312,b12=0.0834,b13=-0.0493,b14=-0.0950,b16=-0.1663,b19=-0.0711,b20=-0.1178,b21=-0.1143,Mu表示第u维MFCC参数,mu为参数Mu的系数,取值分别为m1=-0.2620,m4=0.0525,m5=-0.1337,m8=0.0525,m11=-0.0330,其余bi=0以及mu=0, h表示测试项的索引,h=1,2,…,H,H为测试项总数,取H=20;
步骤(2.1.3.4),按以下步骤得到声母必测词表:
步骤(2.1.3.4.1),设定每一个所述声母语音文件为一类,Sh'={Xh'},其中Sh'为第h'个分类,Xh'为第h'个声母语音的特征参数向量;
步骤(2.1.3.4.2),把H'个分类中欧氏距离最近的向量与类归并为一个子类,构成欧式距离最近的向量声母语音的集合;
步骤(2.1.3.4.3),分别计算步骤(2.1.3.4.2)得到的各个集合内所有向量的平均值,作为该集合的中心向量,再计算任何两个所述声母语音集合的中心向量的欧氏距离作为任意两个所述声母语音集合的距离;
步骤(2.1.3.4.4),重复步骤(2.1.3.4.2)和步骤(2.1.3.4.3),直到只剩下一个子类;
步骤(2.1.3.4.5),根据步骤(2.1.3.4.4)得到的结果构造一棵叶子节点为21个声母语音的聚类树,最终把声母语音分成八类:
第一类声母语音为b, d, f, 分类频率为19.60%,分类个数为4,
第二类声母语音为p, t, ch, 分类频率为7.26%,分类个数为1,
第三类声母语音为g, k, h, 分类频率为11.75%,分类个数为2,
第四类声母语音为j, q, x, 分类频率为14.95%,分类个数为3,
第五类声母语音为z, c, s, 分类频率为5.24%,分类个数为1,
第六类声母语音为l, m. n, r, 分类频率为13.90%,分类个数为3,
第七类声母语音为zh, sh, 分类频率为14.84%,分类个数为3,
第八类声母语音为零声母, 分类频率为12.45%,分类个数为3,
分类频率为该声母子类在口语中出现频次占上述所有声母分类在口语中出现的总频次的百分比,分类个数为以单个必测词表测试项总数H=20为例,将该测试总数乘以分类的频率然后四舍五入得到的该分类在词表中的个数,零声母是指,在汉语普通话中只由一个韵母组成的音节,由于该音节没有声母,声学上将该类音节的声母称之为零声母;
步骤(2.1.4),依次按照以下步骤在听感上对韵母语音进行分类:
步骤(2.1.4.1),对步骤(2.1.2)得到的每个韵母语音文件,选择时序上位于每个韵母语音文件上韵母总时长的1/6、3/6、5/6三个时刻的语音帧,按如下步骤计算生成三条LPC谱曲线,每个韵母语音文件均有三条线性预测LPC谱曲线:
步骤(2.1.4.1.1),对每个韵母语音帧按下式进行预加重处理:
s(k')=x(k')-0.94x(k'-1)
其中,k'为韵母语音采样信号的索引,x(k')为原始韵母语音文件中第k'个韵母语音采样信号的幅值,s(k')为预加重处理后的韵母语音信号幅值;
步骤(2.1.4.1.2),对步骤(2.1.4.1.1)预加重处理得到的韵母语音信号采用如下汉明窗进行加窗处理:
其中M为预先指定的窗长,W(m)为第m个窗序列值,m为窗序列的索引,m=0,1,…,M-1,
加窗处理公式为:
其中,s(k')为步骤(2.1.4.1.1)得到的语音,W(m-k')为汉明窗的第m-k'个值,z(m)为加窗处理后的语音;
步骤(2.1.4.1.3),对步骤(2.1.4.1.2)得到的语音信号z(m),按如下方程组计算指定阶数为P的P个LPC系数,P的取值范围为15≤P≤60且P为整数:
令
,
其中,z(m)z(m+p)表示两个时域信号的乘积,r(p)是中间变量,εP为实际信号与线性预测信号的最小均方误差,αp为第p个LPC系数,p为LPC系数的索引,且p=1,2,…,P,(α1,α2,…,αp)即为所求的P个LPC系数;
步骤(2.1.4.1.4),按步骤(2.1.3.1.1)计算由步骤(2.1.4.1.3)得到的LPC系数(α1,α2,…,αp)的FFT能量谱,该能量谱对应的曲线即为LPC谱曲线;
步骤(2.1.4.2),对于每条所述的LPC谱线,以500Hz,1000Hz,2000Hz为中心,分别计算[450,550]、[950,1050]和[1950,2050]三个频率段内LPC谱曲线的积分,由此得到一个九维特征向量,作为韵母的特征向量;
步骤(2.1.4.3),对所有的韵母语音文件执行步骤(2.1.4.1)到步骤(2.1.4.2),各九维特征向量之间的欧氏距离为韵母语音感知距离;
步骤(2.1.4.4),把步骤(2.1.4.3)的结果聚成一个韵母语音的聚类树,把韵母语音分成八类:
第一类韵母语音为o, ou, ong, iong, er, uo, 分类频率为11.70%,分类个数为2,
第二类韵母语音为ia, iao, iang, ai, an, üan, eng, uan, 分类频率为16.37%,分类个数为3,
第三类韵母语音为a, ao, ang, ua, uang, uai, 分类频率为11.27%,分类个数为2,
第四类韵母语音为en, iu, ui, uen, 分类频率为9.40%,分类个数为2,
第五类韵母语音为i, in, ing, ie, ian, ei, ün, 分类频率为28.53%,分类个数为6,
第六类韵母语音为ü, üe, 分类频率为2.81%,分类个数为1,
第七类韵母语音为u, 分类频率为7.11%,分类个数为1,
第八类韵母语音为e, 分类频率为12.38%,分类个数为3;
步骤(2.1.5),设定:所述汉语普通话言语测听动态词表中音位q的出现频率与口语交流中去除轻声音节之后的声韵调的统计频率相同,为fq,按如下步骤计算每个声母语音分类、韵母语音分类及声调语音分类在所述汉语普通话言语测听动态词表中的实际分配个数:
步骤(2.1.5.1),按如下公式计算每个声母语音分类在所述汉语普通话言语测听动态词表中的实际分配个数:
其中q1为声母音位,为q1的统计频率,Sa为第a类声母音位集合,a为声母类的索引,为声母类Sa在所述汉语普通话言语测听动态词表中的实际分配个数,H为测试项总数;
步骤(2.1.5.2),按如下公式计算每个韵母语音分类在所述汉语普通话言语测听动态词表中的实际分配个数:
其中q2为韵母音位,为q2的统计频率,Sb为第b类韵母音位集合,b为声母类的索引,为韵母类Sb在所述汉语普通话言语测听动态词表中的实际分配个数;
步骤(2.1.5.3),按如下公式计算每个声调语音分类在所述汉语普通话言语测听动态词表中的实际分配个数:
其中q3为声调音位,为q3的统计频率,Sc为第c类声调音位集合,c为声调类的索引,为声调类Sc在所述汉语普通话言语测听动态词表中的实际分配个数;
步骤(2.1.6),根据步骤(2.1.5)中的声母语音、韵母语音及声调语音的分类及各类的实际分配个数搭配组词编制成所述设定长度的必测词表;
步骤(2.1.7),按下式计算所述必测词表的清晰度ATL_TB:
并按所述必测词表清晰度ATL_TB调整词表项,使各个语音文件所对应的必测词表的清晰度相等或相近,以减少各个必测词表在听感上的差异,步骤如下:
步骤(2.1.7.1),计算步骤(2.1.7)生成的所有所述必测词表的词表清晰度的平均值ATL_TBmean及标准差ATL_TBSD:
其中,q表示所述必测词表的索引,q=1,2,…,Q,Q为所制定的所述必测词表的总张数, ATL_TBq为第q张所述必测词表的清晰度;
步骤(2.1.7.2),设定:步骤(2.1.7.1)中各必测词表与词表清晰度平均值ATL_TBmean之差的绝对值的阈值Δ(ATL_TB)≤0.1:
Δ(ATL_TB)=|ATL_TB-ATL_TBmean|;
步骤(2.1.7.3),把步骤(2.1.7.1)中各必测词表的清晰度ATL_TB与ATL_TBmean进行比较,若Δ(ATL_TB)≤0.1,则可不必对该词表进行调整,否则:
若ATL_TB<ATL_TBmean,则删掉该必测词表ATL_TB中清晰度ATL较小语音测试项,
若ATL_TB>ATL_TBmean,则删掉该必测词表ATL_TB中清晰度ATL较大语音测试项;
步骤(2.1.7.4),按以下方式对步骤(2.1.7.3)中被删去的项进行替代:
若ATL_TB<ATL_TBmean,则用清晰度大于所述删去项且由和该删去项的相同声母、同类韵母项搭配组成的项代替,
若ATL_TB>ATL_TBmean,则用清晰度小于所述删去项且由与该被删去项相同声母、同类韵母搭配组成的项代替;
步骤(2.1.7.5),重复执行步骤(2.1.7.4)直至步骤(2.1.7.4)中的各必测词表的清晰度ATL_TB与ATL_TBmean之差的绝对值小于预先设定的阈值Δ(ATL_TB)≤0.1为止,从而组成一个有多个等价的言语测听动态词表的言语测听系统;
步骤(2.2),不定长度的隐含词表是当受试者对必测词表项听辨错误时所选择的补充测试项的集合,其中,两者的声母语音属于同一个声母语音分类,韵母语音也属于同一韵母语音分类,共同组成隐含词表同质项;
步骤(3),测试者在一个隔音房间中对被测试者进行言语测听,由计算机随机播放测试项,用听力计对音强进行调节。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210549152.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:负载型催化剂高效催化合成碳酸环己烯酯的方法
- 下一篇:魔芋葡甘低聚糖生产方法