[发明专利]一种基于声音特征的物品材质识别方法及装置有效

申请号：	201710575310.X	申请日：	2017-07-14
公开（公告）号：	CN107545902B	公开（公告）日：	2020-06-02
发明（设计）人：	刘华平;付海滨;孙富春	申请（专利权）人：	清华大学
主分类号：	G10L25/03	分类号：	G10L25/03;G10L25/18;G10L25/24;G10L25/45;G10L25/51;G01N9/00;G01N24/00;G01N29/44;G06F16/68
代理公司：	北京清亦华知识产权代理事务所(普通合伙) 11201	代理人：	廖元秋
地址：	100084***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提出一种基于声音特征的物品材质识别方法及装置，属于信号处理和模式识别领域。本方法首先选定不同材质的训练物品，敲击每个训练物品表面获取音频文件，提取音频文件的特征得到训练物品的材质特征系数矩阵，构建材质识别专家数据库并作为训练样本集训练得到极限学习机分类器；获取待测物品的音频文件并提取相应的材质特征系数矩阵，将矩阵输入极限学习机分类器，分类器输出该测试物品的输出预测值矩阵，该矩阵中每个输出值对应一种物品材质类别，最大值所对应的物品材质类别即为该待测物品的材质识别结果。本装置包括麦克风声音采集笔和计算机，两者之间通过蓝牙连接。本发明有效帮助客户进行网购产品材质识别，识别结果准确，实用性强。
搜索关键词：	一种基于声音特征物品材质识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于声音特征的物品材质识别方法，其特征在于，包括以下步骤：1)采集音频文件；选定一个训练物品，利用麦克风声音采集笔敲击该训练物品的表面产生振动声音信号，将振动声音信号转换成数字声音信号并上传到计算机保存成一个音频文件；每个音频文件的采样频率为44100Hz，采集时长为1s，采集精度16bit，文件保存为wav格式，转换为数据点共有44100个数据点；2)特征提取；具体包括以下步骤：2‑1)对步骤1)得到的训练物品音频文件的声音数据进行预处理；具体步骤如下：2‑1‑1)预加重：将步骤1)得到的音频文件中的声音数据通过高通滤波，表达式如下：H(z)＝1‑μz‑1式中，H(z)代表高通滤波器函数，预加重系数μ为0.97，z代表z变换；2‑1‑2)对完成预加重的音频文件的声音数据进行分帧处理：令每帧的帧长为1104个数据点，则对应的每帧的时长为1104/44100*1000＝25ms；帧移为441个数据点，则对应帧移时长为441/44100*1000＝10ms，则该音频文件的声音数据划分后得到对应的帧数为98帧；2‑1‑3)加窗处理：设分帧后的任意一帧中声音数据是xi(n),n＝0,1,…,N‑1，N为每帧中的数据点的个数，N＝1104,i代表声音数据分帧后第i帧，i＝1,2,…,98；乘上汉明窗后x′i(n)＝xi(n)×W(n)；汉明窗公式为：W(n)=(1-α)-α×cos[2πnN-1],0≤n≤N-1]]>式中，W(n)代表汉明窗函数，汉明窗系数α＝0.46；2‑2)对经过步骤2‑1)预处理完毕的音频文件的声音数据提取特征，提取的特征包括：声音静态特性MFCC特征系数、声音动态特性MFCC一阶差分系数DMFCC和声音动态特性MFCC二阶差分系数D2MFCC；具体步骤如下：2‑2‑1)提取声音静态特性MFCC特征系数：具体步骤如下：2‑2‑1‑1)将预处理完毕后的每帧声音数据进行快速傅里叶变换FFT得到每帧的频谱，表达式如下：Xi(k)=Σn=0N-1x′i(n)e-j2πnk/N,(0≤k≤N-1)]]>式中，Xi(k)为第i帧声音数据的频谱，k为第i帧中FFT变换的数据点数，x'i(n)为步骤2‑1‑3)得到的加窗后的每帧声音数据；2‑2‑1‑2)计算每帧声音数据的功率谱Pim，表达式如下：Pim＝|Xi(k)|22‑2‑1‑3)将每帧声音数据的功率谱Pim通过Mel三角滤波器组进行滤波，Mel三角滤波器组中包括M个滤波器，Mel三角滤波器组的表达式如下：Hm(k)=0,k<f(m-1)2(k-f(m-1))(f(m+1)-f(m-1))(f(m)-f(m-1)),f(m-1)≤k≤f(m)2(f(m+1)-k)(f(m+1)-f(m-1))(f(m)-f(m-1)),f(m)≤k≤f(m+1)0,k>f(m+1)]]>式中，f(m)代表第m个Mel滤波器的中心频率，0≤m≤M‑1；2‑2‑1‑4)计算Mel三角滤波器组输出的每帧声音数据的对数能量，表达式如下：Qi(m)=ln(Σk=0N-1PimHm(k)),0≤m≤M-1]]>2‑2‑1‑5)对步骤2‑2‑1‑4)得到的对数能量进行离散余弦变换得到每帧声音数据的梅尔倒谱特征系数MFCC，表达式如下：Ci(η)=Σm=0M-1Qi(m)cos(πη(m-0.5)M),η=1,2,...,L]]>式中，Ci(η)表示第i帧声音数据的第η阶MFCC系数，L为MFCC系数的总阶数；训练物品的每个音频文件得到一个98*L的MFCC特征矩阵；2‑2‑2)提取声音动态特性MFCC一阶差分特征系数DMFCC；MFCC一阶差分特征系数DMFCC的表达式为：Di(η)=Ci(η+1)-Ci(η),η<θ12Σν=1ν-θν2Σν=1ν=θν·(Ci(η+ν)-Ci(η-ν)),θ≤η<L-θCi(η)-Ci(η-1),η≥L-θ]]>式中，Di(η)是第i帧声音数据第η阶MFCC特征系数的一阶差分参数；θ表示一阶导数的时间差；训练物品的每个音频文件得到一个98*L的DMFCC特征矩阵；2‑2‑3)提取声音动态特性MFCC二阶差分特征系数D2MFCC；MFCC二阶差分特征系数D2MFCC的表达式为：Di2(η)=Di(η+1)-Di(η),η<ω12Σν=1ν=ων2Σν=1ν=ων·(Di(η+ν)-Di(η-ν)),ω≤η<L-ωDi(η)-Di(η-1),η≥L-ω]]>式中，Di2(η)是第i帧声音数据第η阶MFCC特征系数的二阶差分参数，ω表示二阶导数的时间差；训练物品的每个音频文件得到一个98*L的D2MFCC特征矩阵；2‑2‑4)将步骤2‑2‑1)至2‑2‑3)得到的三个特征矩阵组合，得到步骤1)选定的训练物品的材质特征系数矩阵：将提取到的MFCC特征矩阵，DMFCC特征矩阵和D2MFCC特征矩阵组合成一个98*3L的特征矩阵，将组合后的特征矩阵的首两行和尾两行去除，组合后的特征矩阵的每一列代表特征系数，对每一列特征系数求取平均值，最后得到该训练物品的音频文件的1*3L的混合MFCC声音特征矩阵并保存，该混合MFCC声音特征矩阵即为得到步骤1)选定的训练物品的材质特征系数矩阵；3)重复步骤1)至步骤2)，对步骤1)选定的训练物品重复采集20次音频文件并提取相应的材质特征系数矩阵；4)选取A种不同类别的材质，每种材质中选取B个不同的物品作为训练物品，重复步骤1)至步骤3)，获取每个训练物品相应的音频文件并提取相对应的材质特征系数矩阵，共提取个材质特征系数矩阵作为训练样本，将所有的训练样本组建成材质识别专家数据库；5)训练极限学习机ELM分类器；5‑1)构建ELM分类器；ELM分类器包括输入层、隐含层和输出层三个层次；设置输入层有a个神经元，每个神经元分别对应每个训练样本的一个输入特征，则a＝3L；设输出层有c个神经元，每个神经元分别对应步骤4)得到的材质识别专家数据库中的一种物品材质的类别，c＝A；设定隐含层神经元个数为l；5‑2)ELM分类器的输入矩阵X表达式为：式中，每一列代表一个训练样本，每一行代表一种特征；共有个训练样本，每个训练样本均包含a个特征，则输入矩阵X有a行列；实际输出矩阵Y表达式为：式中，实际输出矩阵Y为c行R列，每一列代表一个训练样本的输出结果，每一个训练样本的输出结果均包含输出c个输出值，每个输出值对应不同的材质类别；5‑2)随机选择输入层与隐含层间的连接权值w和隐含层神经元的偏置b；输入层和隐含层之间的连接权值w，表达式如下：式中，wσp表示输入层第p个神经元与隐含层第σ个神经元间的连接权值；隐含层神经元的偏置b，表达式如下：b=b1b2...bσ...bll×1]]>式中，bσ表示隐含层第σ个神经元的偏置；5‑3)计算隐含层输出矩阵H；选择一个无限可微的函数作为隐含层神经元的激励函数g(x)，记隐含层与输出层间的连接权值为β，表达式为：β=β11β12...β1cβ21β22...β2c............βl1βl2...βlcl×c]]>得到ELM分类器的预测输出矩阵T为：其中，式中，wσ＝[wσ1,wσ2,…,wσa]；xq＝[x1q,x2q,…,xaq]T；上式中，预测输出矩阵T表示为：Hβ＝T'计算得到隐含层输出矩阵H：5‑4)计算隐含层与输出层的最优连接权值β的值通过求解如下表达式的最小二乘解获得：minβ||Hβ-T′||]]>其最优解为表达式如下：β^=H+T′]]>式中，H+为隐含层输出矩阵H的Moore‑Penrose广义逆，ELM分类器训练完毕；6)材质识别；具体步骤如下：6‑1)选定任一待测物品，重复步骤1)，采集该测物品产生的振动声音信号，并保存为相应的音频文件；6‑2)重复步骤2)，对步骤6‑1)得到的音频文件提取特征，获取该待测物品的材质特征系数矩阵；6‑3)将提取到的该待测物品的材质特征系数矩阵输入到步骤5)训练完毕的极限学习机ELM分类器，分类器输出得到该测试物品对应的c×1的输出预测值矩阵，该输出预测值矩阵中包含c个输出值，每个输出值对应一种物品材质类别，输出值中的最大值所对应的物品材质类别即为该待测物品的材质识别结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学，未经清华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710575310.X/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于声音特征的物品材质识别方法及装置有效

专利文献下载