[发明专利]一种基于云边端的声音大数据分析计算图像化系统在审

申请号：	202110814736.2	申请日：	2021-07-19
公开（公告）号：	CN113539298A	公开（公告）日：	2021-10-22
发明（设计）人：	徐元晓;张家健;周斌;徐啸峰;马乐;任杰;陈飞;刘春林;夏章楠	申请（专利权）人：	中通服咨询设计研究院有限公司
主分类号：	G10L25/51	分类号：	G10L25/51;G10L25/30;G10L25/24;G06K9/00
代理公司：	江苏圣典律师事务所 32237	代理人：	于瀚文;胡建华
地址：	210019 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于云边端声音数据分析计算图像系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于云边端的声音大数据分析计算图像化系统，其特征在于，包括声音数据采集模块、声音预处理模块、数字音频识别模块、数字音频图像化处理模块和计算结果管理模块；

其中，所述数据采集模块用于，采集特定环境下物体发出的声音，并在数据采集的边缘端记录保存为音频数据；

所述声音预处理模块用于，在边缘端对音频数据进行预处理，得到预处理后的音频数据；

所述数字音频识别模块用于，对预处理后的音频数据进行分类；

所述数字音频图像化处理模块用于，在字音频识别模块对音频数据进行分类的基础上，通过计算得出累积距离来进行图像化输出；

所述计算结果管理模块用于，对数据采集模块中音频数据进行元数据管理，对数字音频识别模块进行数据质量的管理，对误报的数据进行存储，提供模型学习的反向数据；对数字音频图像化处理模块生成的图像进行分类管理，提供不同终端的显示方式。

2.根据权利要求1所述的系统，其特征在于，所述声音预处理模块具体执行如下步骤：

步骤a1，预加重:采用数字滤波器对音频数据s(n)进行预加重，公式如下：

是音频数据的平均功率谱，s(n)是当前音频数据，s(n-1)是上一时刻音频数据，其中a是预加重系数；

步骤a2，分帧：音频数据具有时变特性，但在一个短时间范围，其特性基本保持不变的特性定义为音频信号短时平稳性，所以将音频数据分段采用“短时分析技术”来分析音频信号短时平稳性的特征参数，其中每一段为一“帧”，每一帧的长度根据音频数据的长度进行取值，从而分析出由每一帧短时平稳性特征参数组成的特征参数时间序列作为步骤a3的输入；

步骤a3，加窗：对抽样n附近的语音波形加以强调而对波形的其余部分加以减弱，即对各个短段进行汉明窗运算，公式为：

其中，0≤n≤N，w(n)是计算出的汉明窗短时谱，N为汉明窗的长度；

步骤a4，端点检测:以短时能量E和短时平均过零率Z作为特征，排除音频数据中无声段的噪声干扰。

3.根据权利要求2所述的系统，其特征在于，步骤a4中，短时能量E和短时平均过零率Z计算公式如下：

其中，E_n是第n帧的短时能量谱，x_n(m)是第n帧的音频数据信号，N为帧长；Z_n是第n帧的短时过零率，sgn[]是符号函数。

4.根据权利要求3所述的系统，其特征在于，所述数字音频识别模块首先判断预处理后的音频数据是否是立体声，如果不是进行步骤b1，如果是直接跳到步骤b2：

步骤b1：立体声转换:对于单声道文件，将单声道文件的第一个通道复制到第二个通道中；

步骤b2：采样率标准化：将音频数据转换为相同的采样率；

步骤b3：等长调整：如果音频数据的长度大于设定的长度，则采用将音频数据直接截断到设定的长度；如果小于设定的长度，则随机填充到设定的长度，从而使音频数据持续时间调整为具有相同的长度；

步骤b4：时移增广：为了保证音频数据集中的相关数据，防止深度学习网络中学习不到相关特征，所以采用时间偏移的方式将音频数据随机的向左或者向右移动进行音频数据的增广；

步骤b5：梅尔图谱化：将增广后的音频数据转换为梅尔频谱图，并将其作为深度学习模型的输入参数；

步骤b6：屏蔽时间和频率：在梅尔频谱图上添加水平条来随机屏蔽一系列连续频率，同时使用竖线随机地遮挡时间范围的技术进行进一步的音频数据扩充；

步骤b7：建立卷积神经网络分类模型，卷积神经网络分类模型将生成特征图的四个卷积块，然后将音频数据重新整形为需要的格式，以便能够输入到线性分类器层，线性分类器层最终输出针对分类的预测；

步骤b8：训练卷积神经网络分类模型：创建训练循环来训练卷积神经网络分类模型，采用损失函数和学习率的调度计划的函数来进行优化模型训练，同时建立一个准确性指标来对每轮学习进行评估，所述准确性指标衡量正确预测的百分比；

步骤b9：声音分类推理：禁用梯度更新，同时运行一个推理循环与卷积神经网络分类模型一起执行前向传播以获取预测，推理得到的音频分类为离散音频数据序列，离散音频数据序列作为数字音频图像化处理模块的输入参数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中通服咨询设计研究院有限公司，未经中通服咨询设计研究院有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110814736.2/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于云边端的声音大数据分析计算图像化系统在审

专利文献下载