[发明专利]一种唇部语音活动检测和结果纠错的语音识别系统和方法在审

申请号：	202110654992.X	申请日：	2021-06-11
公开（公告）号：	CN113571051A	公开（公告）日：	2021-10-29
发明（设计）人：	冯伟;史鹏;高丽清;刘泽康;刘之谏	申请（专利权）人：	天津大学
主分类号：	G10L15/06	分类号：	G10L15/06;G10L15/25;G10L15/26;G10L25/51;G10L25/78;G06F40/232;G06F40/284;G06K9/00;G06K9/62
代理公司：	天津市北洋有限责任专利代理事务所 12201	代理人：	程毓英
地址：	300072***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种唇部语音活动检测结果纠错识别系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种唇部语音活动检测和结果纠错的语音识别系统，其特征在于，包括音视频处理模块、语音活动检测器、语音识别器、专有名词数据库、识别结果纠错器。其中，所述音视频处理模块，用于将采集好的包含人脸的视频进行处理，划分成视频片段，提取出含有音频的视频片段；

所述语音活动检测器，用于对含有音频的视频片段进行语音活动检测，判断出所述的含有音频的视频片段是否为含有语音的视频片段；方法如下：分为唇部区域提取器和唇部语音活动检测器两部分；所述唇部区域提取器，使用RetinaFace模型实现，通过检测含有音频的视频片段中的人脸，得到唇部关键点和唇部区域图片；所述唇部语音活动检测器，使用LPN模型实现，通过视频片段中视频帧的唇部关键点和唇部区域图片，判断视频片段是否为含有语音的视频片段；

所述语音识别器，用于对被检测为含有语音的视频片段中提取出的音频进行语音识别，得到语音识别的原始结果。

所述专有名词数据库，用于存储特定领域的专有名词和词对应的拼音序列。

所述识别结果纠错器，用于对语音识别器的识别结果进行纠错，方法如下：将语音识别器的原始识别结果转为拼音序列，计算原始识别结果的拼音序列和专有名词数据库中专有名词的拼音序列的最长公共子序列，对原始识别结果进行纠错。

2.根据权利要求1所述的语音识别系统，其特征在于，使用最长公共子序列的方法对原始结果进行纠错，包括以下步骤：

(1)将语音识别的原始结果转化为拼音序列；

(2)计算得到语音识别原始结果的拼音序列和词库中每个词的拼音序列之间的最长公共子序列；

(3)根据最长公共子序列的首尾字符获取语音识别原始结果中的待替换部分；

(4)根据最长公共子序列、语音识别原始结果的拼音序列、词库中每个词的拼音序列的数值，按照一组规则，选择出替换词；

(5)对语音识别原始结果中的待替换部分进行替换。

3.一种使用权利要求1所述的语音识别系统实现的唇部语音活动检测和结果纠错的语音识别方法，其特征在于，包括以下步骤：

准备阶段，搜集特定领域的专有名词，并将专有名词转化为拼音序列，建立专有名词数据库；

训练阶段，训练语音活动检测器，分别训练唇部区域提取器和唇部语音活动检测器；