[发明专利]一种基于声音特征的物品材质识别方法及装置有效

专利信息
申请号: 201710575310.X 申请日: 2017-07-14
公开(公告)号: CN107545902B 公开(公告)日: 2020-06-02
发明(设计)人: 刘华平;付海滨;孙富春 申请(专利权)人: 清华大学
主分类号: G10L25/03 分类号: G10L25/03;G10L25/18;G10L25/24;G10L25/45;G10L25/51;G01N9/00;G01N24/00;G01N29/44;G06F16/68
代理公司: 北京清亦华知识产权代理事务所(普通合伙) 11201 代理人: 廖元秋
地址: 100084*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 声音 特征 物品 材质 识别 方法 装置
【权利要求书】:

1.一种基于声音特征的物品材质识别装置,其特征在于,包括:麦克风声音采集笔和计算机,两者之间通过蓝牙连接;所述麦克风声音采集笔包括:金属敲击棒、麦克风传感器、声音模数转换模块、蓝牙传输模块、显示模块和笔体;所述麦克风传感器、声音模数转换模块、蓝牙传输模块和显示模块均安装在笔体内部,金属敲击棒一端放置在笔体内部,另一端放置在笔体外部;所述金属敲击棒用于敲击物品的表面产生振动声音信号,麦克风传感器用于采集振动声音信号并传送给声音模数转换模块,声音模数转换模块用于将振动声音信号转换成声音数字信号并传送给蓝牙传输模块,蓝牙传输模块通过蓝牙将声音数字信号上传至计算机保存成音频文件,计算机对音频文件进行识别后输出物品材质识别结果并通过蓝牙返回给蓝牙传输模块,蓝牙传输模块将识别结果通过显示模块显示给用户;该装置实现方法如下:

1)采集音频文件;

选定一个训练物品,利用麦克风声音采集笔敲击该训练物品的表面产生振动声音信号,将振动声音信号转换成数字声音信号并上传到计算机保存成一个音频文件;每个音频文件的采样频率为44100Hz,采集时长为1s,采集精度16bit,文件保存为wav格式,转换为数据点共有44100个数据点;

2)特征提取;具体包括以下步骤:

2-1)对步骤1)得到的训练物品音频文件的声音数据进行预处理;具体步骤如下:

2-1-1)预加重:将步骤1)得到的音频文件中的声音数据通过高通滤波,表达式如下:

H(z)=1-μz-1

式中,H(z)代表高通滤波器函数,预加重系数μ为0.97,z代表z变换;

2-1-2)对完成预加重的音频文件的声音数据进行分帧处理:令每帧的帧长为1104个数据点,则对应的每帧的时长为1104/44100*1000=25ms;帧移为441个数据点,则对应帧移时长为441/44100*1000=10ms,则该音频文件的声音数据划分后得到对应的帧数为98帧;

2-1-3)加窗处理:设分帧后的任意一帧中声音数据是xi(n),n=0,1,…,N-1,N为每帧中的数据点的个数,N=1104,i代表声音数据分帧后第i帧,i=1,2,…,98;乘上汉明窗后x′i(n)=xi(n)×W(n)

汉明窗公式为:

式中,W(n)代表汉明窗函数,汉明窗系数α=0.46;

2-2)对经过步骤2-1)预处理完毕的音频文件的声音数据提取特征,提取的特征包括:声音静态特性MFCC特征系数、声音动态特性MFCC一阶差分系数DMFCC和声音动态特性MFCC二阶差分系数D2MFCC;具体步骤如下:

2-2-1)提取声音静态特性MFCC特征系数:具体步骤如下:

2-2-1-1)将预处理完毕后的每帧声音数据进行快速傅里叶变换FFT得到每帧的频谱,表达式如下:

式中,Xi(k)为第i帧声音数据的频谱,k为第i帧中FFT变换的数据点数,x'i(n)为步骤2-1-3)得到的加窗后的每帧声音数据;

2-2-1-2)计算每帧声音数据的功率谱Pim,表达式如下:

Pim=|Xi(k)|2

2-2-1-3)将每帧声音数据的功率谱Pim通过Mel三角滤波器组进行滤波,Mel三角滤波器组中包括M个滤波器,Mel三角滤波器组的表达式如下:

式中,f(m)代表第m个Mel滤波器的中心频率,0≤m≤M-1;

2-2-1-4)计算Mel三角滤波器组输出的每帧声音数据的对数能量,表达式如下:

2-2-1-5)对步骤2-2-1-4)得到的对数能量进行离散余弦变换得到每帧声音数据的梅尔倒谱特征系数MFCC,表达式如下:

式中,Ci(η)表示第i帧声音数据的第η阶MFCC系数,L为MFCC系数的总阶数;训练物品的每个音频文件得到一个98*L的MFCC特征矩阵;

2-2-2)提取声音动态特性MFCC一阶差分特征系数DMFCC;

MFCC一阶差分特征系数DMFCC的表达式为:

式中,Di(η)是第i帧声音数据第η阶MFCC特征系数的一阶差分参数;θ表示一阶导数的时间差;训练物品的每个音频文件得到一个98*L的DMFCC特征矩阵;

2-2-3)提取声音动态特性MFCC二阶差分特征系数D2MFCC;

MFCC二阶差分特征系数D2MFCC的表达式为:

式中,Di2(η)是第i帧声音数据第η阶MFCC特征系数的二阶差分参数,ω表示二阶导数的时间差;训练物品的每个音频文件得到一个98*L的D2MFCC特征矩阵;

2-2-4)将步骤2-2-1)至2-2-3)得到的三个特征矩阵组合,得到步骤1)选定的训练物品的材质特征系数矩阵:

将提取到的MFCC特征矩阵,DMFCC特征矩阵和D2MFCC特征矩阵组合成一个98*3L的特征矩阵,将组合后的特征矩阵的首两行和尾两行去除,组合后的特征矩阵的每一列代表特征系数,对每一列特征系数求取平均值,最后得到该训练物品的音频文件的1*3L的混合MFCC声音特征矩阵并保存,该混合MFCC声音特征矩阵即为得到步骤1)选定的训练物品的材质特征系数矩阵;

3)重复步骤1)至步骤2),对步骤1)选定的训练物品重复采集20次音频文件并提取相应的材质特征系数矩阵;

4)选取A种不同类别的材质,每种材质中选取B个不同的物品作为训练物品,重复步骤1)至步骤3),获取每个训练物品相应的音频文件并提取相对应的材质特征系数矩阵,共提取个材质特征系数矩阵作为训练样本,将所有的训练样本组建成材质识别专家数据库;

5)训练极限学习机ELM分类器;

5-1)构建ELM分类器;

ELM分类器包括输入层、隐含层和输出层三个层次;设置输入层有a个神经元,每个神经元分别对应每个训练样本的一个输入特征,则a=3L;设输出层有c个神经元,每个神经元分别对应步骤4)得到的材质识别专家数据库中的一种物品材质的类别,c=A;设定隐含层神经元个数为l;

5-2)ELM分类器的输入矩阵X表达式为:

式中,每一列代表一个训练样本,每一行代表一种特征;共有个训练样本,每个训练样本均包含a个特征,则输入矩阵X有a行列;

实际输出矩阵Y表达式为:

式中,实际输出矩阵Y为c行R列,每一列代表一个训练样本的输出结果,每一个训练样本的输出结果均包含输出c个输出值,每个输出值对应不同的材质类别;

5-2)随机选择输入层与隐含层间的连接权值w和隐含层神经元的偏置b;

输入层和隐含层之间的连接权值w,表达式如下:

式中,wσp表示输入层第p个神经元与隐含层第σ个神经元间的连接权值;

隐含层神经元的偏置b,表达式如下:

式中,bσ表示隐含层第σ个神经元的偏置;

5-3)计算隐含层输出矩阵H;

选择一个无限可微的函数作为隐含层神经元的激励函数g(x),记隐含层与输出层间的连接权值为β,表达式为:

得到ELM分类器的预测输出矩阵T为:

其中,

式中,wσ=[wσ1,wσ2,…,wσa];xq=[x1q,x2q,…,xaq]T

上式中,预测输出矩阵T表示为:Hβ=T'

计算得到隐含层输出矩阵H:

5-4)计算隐含层与输出层的最优连接权值

β的值通过求解如下表达式的最小二乘解获得:

其最优解为表达式如下:

式中,H+为隐含层输出矩阵H的Moore-Penrose广义逆,ELM分类器训练完毕;

6)材质识别;具体步骤如下:

6-1)选定任一待测物品,重复步骤1),采集该测物品产生的振动声音信号,并保存为相应的音频文件;

6-2)重复步骤2),对步骤6-1)得到的音频文件提取特征,获取该待测物品的材质特征系数矩阵;

6-3)将提取到的该待测物品的材质特征系数矩阵输入到步骤5)训练完毕的极限学习机ELM分类器,分类器输出得到该测试物品对应的c×1的输出预测值矩阵,该输出预测值矩阵中包含c个输出值,每个输出值对应一种物品材质类别,输出值中的最大值所对应的物品材质类别即为该待测物品的材质识别结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710575310.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top