[发明专利]一种唇部语音活动检测和结果纠错的语音识别系统和方法在审
申请号: | 202110654992.X | 申请日: | 2021-06-11 |
公开(公告)号: | CN113571051A | 公开(公告)日: | 2021-10-29 |
发明(设计)人: | 冯伟;史鹏;高丽清;刘泽康;刘之谏 | 申请(专利权)人: | 天津大学 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/25;G10L15/26;G10L25/51;G10L25/78;G06F40/232;G06F40/284;G06K9/00;G06K9/62 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 程毓英 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 唇部 语音 活动 检测 结果 纠错 识别 系统 方法 | ||
本发明涉及一种唇部语音活动检测和结果纠错的语音识别系统及识别方法,其特征在于,包括音视频处理模块、语音活动检测器、语音识别器、专有名词数据库、识别结果纠错器。其中,所述音视频处理模块,用于将采集好的包含人脸的视频进行处理,划分成视频片段,提取出含有音频的视频片段;所述语音活动检测器,用于对含有音频的视频片段进行语音活动检测,判断出所述的含有音频的视频片段是否为含有语音的视频片段;所述语音识别器,用于对被检测为含有语音的视频片段中提取出的音频进行语音识别,得到语音识别的原始结果。所述识别结果纠错器,用于对语音识别器的识别结果进行纠错。
技术领域
本发明属于人工智能、计算机视觉、语音识别领域,具体涉及一种唇部语音活动检测和结果纠错的语音识别系统和方法。
背景技术
随着计算机技术的发展,人与机器之间的交互越发频繁。在各种人机交互方式中,语音是不容忽视的一种重要方式。语音识别技术在智能家居、手机语音助手等应用中大放异彩。2017年3月,根据Mary Meeker年度互联网报告,Google以机器学习为背景的语音识别系统,在英文领域取得了95%的字准确率,此结果逼近人类语音识别的准确率。由此可见,目前的语音识别技术,在安静场景下的识别准确率已经达到了较高水平。然而在噪声场景下,其准确率受到极大影响,造成语音识别在噪声环境下存在误差的原因有很多。语音活动检测(Voice Activity Detection,VAD)的效果不好是一个原因,语音活动检测是语音信号处理领域的一项技术,根据输入的信号,判断用户是否在说话,截取出有效的语音片段,以供后续的语音识别使用。语音活动检测可以减少语音识别的计算量,减少噪声情况下的误识别。语音活动检测的效果不好,会导致在对音频进行句子切分的时候,句子不能被准确切分,导致语音识别的内置语言模型无法进行上下文的搜索,使得识别的精度下降。
目前国内外对于语音活动检测的实现主要分为基于音频信号和基于视频信号两种方式。(中国,201810864097)使用后验概率计算,判断音频帧是否为语音帧。(中国,202011332443.2)使用深度学习算法识别音频帧,将达到预设的长静音阈值的帧作为切分点将持续语音信号切分为多个有效语音段。由于依赖于音频信号的语音活动检测很容易受到背景噪音的影响,而在语音识别的实际应用场景中,大量的电子设备可以同时采集用户的音频和用户的面部视频,因此,本专利使用视频信号,根据用户的唇部动作进行语音活动检测,以提升噪音环境下语音识别的精确度。
纽约州立大学石溪分校提出的LPN模型(Landmark Pooling Network)和传统的利用音频作为静音检测的方法不同,通过将人脸信息融入深度神经网络进行特征学习,实现了基于视频信号的语音活动检测,在公开的LSW数据集上达到了79.9%的准确率。然而LPN模型要求输入的图像只包括唇部区域。帝国理工学院提出的开源人脸检测算法RetinaFace在多个数据集上都有良好的精度,在检测人脸的同时,还可以预测人脸的关键点。
此外,特定领域的专有名词也对语音识别有很大的难度。(中国,201710952988)提出一种基于领域识别的对语音识别后文本纠错的方法,根据编辑距离计算相似度得分进行纠错。
发明内容
本发明的目的是提供对噪声具有良好鲁棒性的语音识别系统和方法,本专利通过对RetinaFace的人脸关键点预测模块进行修改,并使用包含唇部关键点的数据集进行训练,使其能够输出唇部区域图像,再通过LPN完成语音活动检测,此外本发明还基于最长公共子序列的方法,建立特定领域的专有名词数据库,在指定了语音识别的特定领域后,对语音识别结果进行纠错,纠正语音识别结果中对专有名词的识别错误。技术方案如下:
一种唇部语音活动检测和结果纠错的语音识别系统,其特征在于,包括音视频处理模块、语音活动检测器、语音识别器、专有名词数据库、识别结果纠错器。其中,
所述音视频处理模块,用于将采集好的包含人脸的视频进行处理,划分成视频片段,提取出含有音频的视频片段;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110654992.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:α粒子发射率测试方法
- 下一篇:一种风电场电磁暂态分析方法及系统