[发明专利]一种基于深度学习目标检测的语音识别方法有效
申请号: | 201711268206.2 | 申请日: | 2017-12-05 |
公开(公告)号: | CN107945791B | 公开(公告)日: | 2021-07-20 |
发明(设计)人: | 李莹莹;肖南峰 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G10L15/05 | 分类号: | G10L15/05;G10L15/06;G10L15/26;G10L19/02;G10L21/0216 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 冯炳辉 |
地址: | 510006 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 目标 检测 语音 识别 方法 | ||
本发明公开了一种基于深度学习目标检测的语音识别方法,包括步骤:1)对输入语音进行录制存储;2)将语音转化为语谱图,通过短时傅里叶变换将原始语音转化为时频分析图;3)对语谱图的局部有效区域进行标注;4)将有标注的语谱图作为输入,使用目标检测网络对其进行有监督的训练;5)将检测网络的输出结果对应到相应的文字,作为最终的输出。本发明将语音识别技术与目标检测技术相结合,针对有效的时频交叉区域进行识别,克服了嘈杂环境中高频噪音的影响,改善了现有语音识别技术在噪音环境下的不足。
技术领域
本发明涉及深度学习语音识别的技术领域,尤其是指一种基于深度学习目标检测的语音识别方法。
技术背景
长久以来,语音作为人类特有的能力备受关注,它是人类之间交流以及人类获取外界信息资源的最重要的工具和渠道。随着移动互联网的不断发展,人与计算机以及人与移动设备的自由交互越来越被重视。语音作为人类重要的交流工具被首要考虑融入移动互联网领域,它主要包括三项技术:语音识别、语音编码和语音合成。其中,语音识别指的是将语音翻译成文字,它是人机交互分支中的一个重要组成,是实现人类与智能设备交互的关键方法与技术,使得机器能够听懂人类的语言,近一步推动了人工智能的发展。语音识别从发展到现在,已经融入了人类生活的方方面面,例如语音搜索、语音打字、语音控制机器人等,给人类的生活带来了极大的便利。
自20世纪70年代发展以来,语音识别一直以隐马尔科夫模型(HMM)为基础,但识别效果并不理想。直到21世纪初期,高斯混合隐马尔科夫模型(GMM-HMM)的出现极大地降低了语音识别的错误率,但仍然离商业化标准较远。近年来,随着深度学习的热潮再次涌起,基于深度神经网络的语音识别系统也随之火热,不仅在已有的最好系统基础上将错误率再次减低30%甚至更多,而且由于计算机基础设备的发展和大数据的产生,语音识别已经成为了具有商业标准的前沿技术。
虽然语音识别技术目前已经相当成熟,但是在噪音环境下的语音识别效果仍然不理想。大多数语音识别系统只考虑语音的时域信息,对频域部分不予考虑,这使得语音识别在噪音环境中难以应用,例如在工厂车间环境下,语音识别仍然很困难,在工业的实时系统中难以应用,这极大的阻碍了工业生产的智能化发展。
因此需要一种基于深度学习目标检测的语音识别方法来降低噪音对识别效果的影响,该方法使用深度学习对语谱图进行检测,而基于语谱图的语音识别不仅可以考虑语音的时域信号,还能兼顾频域信号,对时域与频域的有效交叉区域进行检测识别,可以避免高频噪音的影响,提高识别准确率,促使语音识别的应用范围更广。
发明内容
本发明的目的在于克服现有技术的不足,提出了一种基于深度学习目标检测的语音识别方法,该方法考虑了噪音环境下语音识别困难的问题,提高了复杂环境中语音识别的准确率,实现了更好的语音识别效果。
为实现上述目的,本发明所提供的技术方案为:一种基于深度目标检测的语音识别方法,包括以下步骤:
1)对输入语音进行录制存储,利用声卡采集声音数据并保存;
2)将语音转化为语谱图,具体是:利用短时傅里叶变换对步骤1)采集的声音数据进行处理,将原始语音信号用三维图谱的方式显示,其中,横轴表示时间,纵轴表示频率,颜色深浅表示局部时频交叉域能量的大小;
3)制作语谱图数据集,对语谱图的局部有效区域进行标注,具体是:利用标注工具对步骤2)变换的语谱图中的有效交叉区域进行标注,得到每个有效区域的边界框(bounding box)信息并保存,制作成为数据集,再将数据集分为训练集和验证集;
4)将有标注的语谱图训练集作为输入,对检测模型进行有监督的训练,这里的检测模型使用YOLOv2目标检测模型,该检测模型是一个端到端的网络结构,具有实时性,具体如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711268206.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:语音识别方法、装置及计算机可读存储介质
- 下一篇:语音处理方法和装置