[发明专利]一种唇部语音活动检测和结果纠错的语音识别系统和方法在审
申请号: | 202110654992.X | 申请日: | 2021-06-11 |
公开(公告)号: | CN113571051A | 公开(公告)日: | 2021-10-29 |
发明(设计)人: | 冯伟;史鹏;高丽清;刘泽康;刘之谏 | 申请(专利权)人: | 天津大学 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/25;G10L15/26;G10L25/51;G10L25/78;G06F40/232;G06F40/284;G06K9/00;G06K9/62 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 程毓英 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 唇部 语音 活动 检测 结果 纠错 识别 系统 方法 | ||
1.一种唇部语音活动检测和结果纠错的语音识别系统,其特征在于,包括音视频处理模块、语音活动检测器、语音识别器、专有名词数据库、识别结果纠错器。其中,所述音视频处理模块,用于将采集好的包含人脸的视频进行处理,划分成视频片段,提取出含有音频的视频片段;
所述语音活动检测器,用于对含有音频的视频片段进行语音活动检测,判断出所述的含有音频的视频片段是否为含有语音的视频片段;方法如下:分为唇部区域提取器和唇部语音活动检测器两部分;所述唇部区域提取器,使用RetinaFace模型实现,通过检测含有音频的视频片段中的人脸,得到唇部关键点和唇部区域图片;所述唇部语音活动检测器,使用LPN模型实现,通过视频片段中视频帧的唇部关键点和唇部区域图片,判断视频片段是否为含有语音的视频片段;
所述语音识别器,用于对被检测为含有语音的视频片段中提取出的音频进行语音识别,得到语音识别的原始结果。
所述专有名词数据库,用于存储特定领域的专有名词和词对应的拼音序列。
所述识别结果纠错器,用于对语音识别器的识别结果进行纠错,方法如下:将语音识别器的原始识别结果转为拼音序列,计算原始识别结果的拼音序列和专有名词数据库中专有名词的拼音序列的最长公共子序列,对原始识别结果进行纠错。
2.根据权利要求1所述的语音识别系统,其特征在于,使用最长公共子序列的方法对原始结果进行纠错,包括以下步骤:
(1)将语音识别的原始结果转化为拼音序列;
(2)计算得到语音识别原始结果的拼音序列和词库中每个词的拼音序列之间的最长公共子序列;
(3)根据最长公共子序列的首尾字符获取语音识别原始结果中的待替换部分;
(4)根据最长公共子序列、语音识别原始结果的拼音序列、词库中每个词的拼音序列的数值,按照一组规则,选择出替换词;
(5)对语音识别原始结果中的待替换部分进行替换。
3.一种使用权利要求1所述的语音识别系统实现的唇部语音活动检测和结果纠错的语音识别方法,其特征在于,包括以下步骤:
准备阶段,搜集特定领域的专有名词,并将专有名词转化为拼音序列,建立专有名词数据库;
训练阶段,训练语音活动检测器,分别训练唇部区域提取器和唇部语音活动检测器;
预测阶段:
步骤一,音视频处理模块将采集好的视频划分视频片段,并提取出视频中的音频;
步骤二,语音活动检测器对视频片段进行语音活动检测;
步骤三,语音识别器对被检测为语音的视频片段中提取出的音频进行语音识别,得到语音识别的原始结果;
步骤四,识别结果纠错器对语音识别的原始结果进行纠错,使用基于最长公共子序列的纠错方法,当语音识别的原始结果中存在专有名词识别错误时,进行纠错。
4.根据权利要求3所述的语音识别方法,其特征在于,唇部区域提取器使用RetinaFace模型,对RetinaFace的模型结构进行修改,将原本的脸部关键点预测从预测5个脸部关键点再增加预测18个唇部关键点。
5.根据权利要求3所述的语音识别方法,其特征在于,RetinaFace模型的骨干网络MobileNetV1-0.25,优化器Adam,学习率0.001,weight_decay=5e-4,每经过一轮训练,学习率缩小到0.92倍。
6.根据权利要求3所述的语音识别方法,其特征在于,唇部语音活动检测器使用LPN模型,训练方法为:使用LSW数据集训练,优化器Adagrad,初始学习率0.0001,每经过50000次迭代,学习率缩小10倍,momentum0.9,衰减系数0.0005,在200000次迭代之后结束训练。
7.根据权利要求3所述的语音识别方法,其特征在于,使用最长公共子序列的方法对原始结果进行纠错,包括以下步骤:
(1)将语音识别的原始结果转化为拼音序列;
(2)计算得到语音识别原始结果的拼音序列和词库中每个词的拼音序列之间的最长公共子序列;
(3)根据最长公共子序列的首尾字符获取语音识别原始结果中的待替换部分;
(4)根据最长公共子序列、语音识别原始结果的拼音序列、词库中每个词的拼音序列的数值,按照一组规则,选择出替换词;
(5)对语音识别原始结果中的待替换部分进行替换。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110654992.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:α粒子发射率测试方法
- 下一篇:一种风电场电磁暂态分析方法及系统