[发明专利]一种基于深度学习目标检测的语音识别方法有效
申请号: | 201711268206.2 | 申请日: | 2017-12-05 |
公开(公告)号: | CN107945791B | 公开(公告)日: | 2021-07-20 |
发明(设计)人: | 李莹莹;肖南峰 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G10L15/05 | 分类号: | G10L15/05;G10L15/06;G10L15/26;G10L19/02;G10L21/0216 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 冯炳辉 |
地址: | 510006 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于深度学习目标检测的语音识别方法,包括步骤:1)对输入语音进行录制存储;2)将语音转化为语谱图,通过短时傅里叶变换将原始语音转化为时频分析图;3)对语谱图的局部有效区域进行标注;4)将有标注的语谱图作为输入,使用目标检测网络对其进行有监督的训练;5)将检测网络的输出结果对应到相应的文字,作为最终的输出。本发明将语音识别技术与目标检测技术相结合,针对有效的时频交叉区域进行识别,克服了嘈杂环境中高频噪音的影响,改善了现有语音识别技术在噪音环境下的不足。 | ||
搜索关键词: | 一种 基于 深度 学习 目标 检测 语音 识别 方法 | ||
【主权项】:
一种基于深度学习目标检测的语音识别方法,其特征在于,包括以下步骤:1)对输入语音进行录制存储,利用声卡采集声音数据并保存;2)将语音转化为语谱图,通过短时傅里叶变换将原始语音转化为时频分析图,具体过程是:利用短时傅里叶变换对步骤1)采集的声音数据进行处理,将原始语音信号用三维图谱的方式显示,其中,横轴表示时间,纵轴表示频率,颜色深浅表示局部时频交叉域能量的大小;3)制作语谱图数据集,对语谱图的局部有效区域进行标注,具体过程是:利用标注工具对步骤2)变换的语谱图中的有效交叉区域进行标注,得到每个有效区域的边界框信息并保存,制作成为数据集,再将数据集分为训练集和验证集;4)将有标注的语谱图训练集作为输入,对检测模型进行有监督的训练,这里的检测模型使用YOLOv2目标检测模型,该检测模型是一个端到端的网络结构,具有实时性,具体如下:4.1)维度聚类:在训练开始之前选择出所需的先验框的维度,能够提高预测的准确率;由于语谱图中信号的边界框宽高比与常见图像的宽高比相差超出预设范围,因此需要重新聚类,具体做法是采用k‑means聚类方法训练边界框,自动找到与所有边界框宽高纬度最接近的先验框维度;k‑means聚类算法是采用距离作为相似性评价指标,即被聚类的两个对象距离越近,两者的相似度越高,距离同一个聚类中心比其它聚类中心更近的几个对象被认为是统一类别的对象,最终得到的结果是k个聚类中心点;传统的k‑means使用欧氏距离来计算误差,这种计算方法容易导致不同大小的先验框所得的误差相差超出预设范围,改进的评判标准采用IOU得分制,其中IOU指的是两个边框的交集与并集之比,设有框A与框B,用S(A∩B)表示A与B相交的面积,S(A∪B)表示A与B相并的面积,则A与B的IOU计算公式如下:IOU=S(A∩B)S(A∪B)]]>每个先验框到聚类中心点的IOU即该先验框属于这个中心点所指类别的概率,IOU越大,相反的计算距离越小,该先验框属于该类的可能性越大,最终得到的距离公式如下:d(box,centroid)=1‑IOU(box,centroid)4.2)参数调整:针对不同的数据集训练网络需要使用不同的参数,根据训练集中的类别修改配置文件中classes选项的数值和names文件中类别的名称,根据训练集和验证集的所在文件路径修改data文件中train和validate的参数值;步骤4.1)通过k‑means算法得到最合适的先验框的个数K,并且YOLOv2的每个先验框包含(4+1+C)个参数,其中数字4为每个先验框的坐标参数个数,数字1为Confidence,是每个先验框的置信度,C指的是训练集样本类别的个数,因此最终配置文件中输出层的参数将应该修改为K*(4+1+C);4.3)训练网络:在终端命令行中输入训练命令,调用步骤4.2)修改过参数的配置文件,开始对网络进行有监督的训练;训练命令加上预训练权重选项能使得网络得到更好的效果,但是由于步骤4.1)针对语谱图数据集中的边界框进行重新聚类,因此常用的预训练权重将不再适用语谱图检测数据集;5)测试训练结果,具体过程是:将步骤4.3)训练得到的最终权重作为测试使用的权重,对需要测试语谱图数据进行测试,将得到的预测结果转换成对应的文字并输出。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711268206.2/,转载请声明来源钻瓜专利网。
- 上一篇:语音识别方法、装置及计算机可读存储介质
- 下一篇:语音处理方法和装置