[发明专利]基于声音特征识别的语言冲突监测方法、介质及设备在审
申请号: | 202010929819.1 | 申请日: | 2020-09-07 |
公开(公告)号: | CN112151066A | 公开(公告)日: | 2020-12-29 |
发明(设计)人: | 朱逸;黄晶晶;袁飞;程恩 | 申请(专利权)人: | 厦门大学 |
主分类号: | G10L25/51 | 分类号: | G10L25/51;G10L25/15;G10L25/24;G10L25/03;G10L25/78 |
代理公司: | 厦门创象知识产权代理有限公司 35232 | 代理人: | 陈文戎;尤怀成 |
地址: | 361000 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 声音 特征 识别 语言 冲突 监测 方法 介质 设备 | ||
1.一种基于声音特征识别的语言冲突监测方法,其特征在于,包括以下步骤:
获取多个历史语音数据,并对每个历史语音数据进行特征提取,以提取每个历史语音数据对应的第一声音特征参数,以及根据所述第一声音特征参数生成第一声音特征向量;
将所述第一声音特征向量输入到支持向量机中进行模型的训练,以训练得到语言冲突识别模型;
获取待检测语音数据,并对所述待检测语音数据进行预处理,以生成对应的短帧声音信号,以及根据基于共振峰的语音端点检测算法对所述短帧声音信号进行端点检测,以提取所述短帧声音信号中的人声语音信号;
对所述人声语音信号进行特征提取,以提取所述人声语音信号对应的第二声音特征参数,并根据所述第二声音特征参数生成第二声音特征向量;
将所述第二声音特征向量输入到所述语言冲突识别模型中,以通过所述语言冲突识别模型判断所述待检测语音数据是否存在语言冲突。
2.如权利要求1所述的基于声音特征识别的语言冲突监测方法,其特征在于,所述第一声音特征参数包括:共振峰特征向量、短时平均能量特征和梅尔倒谱系数特征向量。
3.如权利要求1所述的基于声音特征识别的语言冲突监测方法,其特征在于,对所述待检测语音数据进行预处理,以生成对应的短帧声音信号,包括:
通过防混叠的模拟带通滤波器对所述待检测语音数据进行滤波,以生成模拟声音信号,并对所述模拟声音信号进行采样,以得到离散的时域声音信号;
通过一阶FIR数字高通滤波器对所述时域声音信号进行提升,并对提升后的时域声音信号进行交叠分帧,以生成对应的短帧声音信号。
4.如权利要求1所述的基于声音特征识别的语言冲突监测方法,其特征在于,根据基于共振峰的语音端点检测算法对所述短帧声音信号进行端点检测,以提取所述短帧声音信号中的人声语音信号,包括:
获取所述短帧声音信号对应的频谱,并根据所述频谱中每个元音对应的频点所具有的平均能量值计算与其相隔半个共振峰频率跨度的两个相邻频点所具有平均能量值的差,以获取峰邻平均能量差;
对所述峰邻平均能量差进行加权求和,以得到每个元音对应的PND值,并根据每个元音对应的PND值获取所述短帧声音信号中的最大PND值,以及根据多个短帧声音信号对应的最大PND值确定信号阈值;
根据每个短帧声音信号对应的最大PND值和所述信号阈值判断该短帧声音信号中是否包含人声语音信号。
5.如权利要求4所述的基于声音特征识别的语言冲突监测方法,其特征在于,所述峰邻平均能量差、PND值、最大PND值和信号阈值根据以下公式计算:
其中,PND1,1(i)表示第一个元音的峰邻平均能量差,fmt1,1表示第一个元音的第一个共振峰频率,fmtL表示每个共振峰所跨越的最大频率范围;
其中,PNDm(i)表示PND值,w表示参数矩阵;
其中,PND(i)表示最大PND值;
其中,THD(i)表示线性函数,θ和表示调整因子。
6.如权利要求1-5中任一项所述的基于声音特征识别的语言冲突监测方法,其特征在于,提取所述人声语音信号对应的第二声音特征参数,并根据所述第二声音特征参数生成第二声音特征向量,包括:
提取所述人声语音信号的共振峰特征参数,并计算所述人声语音信号的归一化短时平均能量,以及提取所述人声语音信号的梅尔倒谱系数特征向量;
根据所述人声语音信号的共振峰特征参数、人声语音信号的归一化短时平均能量和所述人声语音信号的梅尔倒谱系数特征向量生成第二声音特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010929819.1/1.html,转载请声明来源钻瓜专利网。