[发明专利]基于中文发音视觉特点的唇语识别方法在审
申请号: | 202011178528.X | 申请日: | 2020-10-29 |
公开(公告)号: | CN112329581A | 公开(公告)日: | 2021-02-05 |
发明(设计)人: | 袁家斌;何珊;陆要要 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/46;G06K9/62;G06N3/04;G06N3/08;G06F40/129;G06F40/289 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 陈国强 |
地址: | 210016 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 中文 发音 视觉 特点 识别 方法 | ||
1.一种基于中文发音视觉特点的唇语识别方法,其特征在于,包括以下步骤:
步骤1,将64×80像素的视频帧序列x1,x2,…,xm输入到一个10层的卷积神经网络,提取得到512维的嘴唇特征向量;
步骤2,以拼音作为建模单元,将嘴唇特征向量输入到带有注意机制的序列到序列模型,得到汉语拼音序列;
步骤3,重复步骤1和步骤2,为预测得到的拼音序列中的声母和与之对应的实际拼音序列中的声母建立混淆矩阵,通过对声母的混淆程度进行归类,得到视觉拼音与对应拼音的映射关系;
步骤4,将步骤2中的建模单元替换成步骤3中得到的视觉拼音,重新对模型进行训练,将重新训练得到的模型命名为视觉拼音预测模型V2VP,V2VP的作用是将步骤1中的视频帧序列表达成视觉拼音序列;
步骤5,以汉字词作为建模单元,将短视频对应的正确的视觉拼音序列输入到带有注意机制的序列到序列模型中,最终得到汉字序列c1,c2,…,cl,该模型被命名为汉字预测模型VP2H;
步骤6,结合步骤4中的视觉拼音预测模型V2VP和步骤5中的汉字预测模型VP2H,得到一个端到端的中文句子级唇语识别模型CHSLR-VP,向中文句子级唇语识别模型CHSLR-VP中输入步骤1生成的嘴唇特征向量,首先得到与视频相对应的视觉拼音序列,再对视觉拼音进行翻译,最终得到短视频中说话者的讲话内容。
2.根据权利要求1所述的基于中文发音视觉特点的唇语识别方法,其特征在于:所述步骤1中使用的卷积神经网络的卷积内核均为1×3×3,采用非线性激活Selu函数,所有的最大池化stride为1×2×2。
3.根据权利要求1所述的基于中文发音视觉特点的唇语识别方法,其特征在于:所述步骤2中得到的汉语拼音序列是以分词为单位的序列。
4.根据权利要求1所述的基于中文发音视觉特点的唇语识别方法,其特征在于:所述步骤3中对拼音的视觉呈现进行归类,实则是对汉语音素的归类,汉语音素分为元音和辅音,辅音中包含了所有的声母,元音在嘴型上是不容易混淆的,所以只对辅音即声母进行归类,归类后得到的视觉拼音与对应拼音的映射关系如下:视觉拼音B,对应的拼音b,p,m;视觉拼音F,对应的拼音f;视觉拼音D,对应的拼音d,t,声母n,l;视觉拼音G,对应的拼音g,k,h;视觉拼音J,对应的拼音j,q,x;视觉拼音R,对应的拼音zh,ch,sh,r,zhi,chi,shi,ri;视觉拼音Z,对应的拼音z,c,s,zi,ci,si;视觉拼音I,对应的拼音i,y,yi;视觉拼音U,对应的拼音u,w,wu;视觉拼音V,对应的拼音ü,yu;视觉拼音a,对应的拼音a;视觉拼音o,对应的拼音o;视觉拼音e,对应的拼音e;视觉拼音E,对应的拼音er;视觉拼音n,对应的拼音韵母n;视觉拼音N,对应的拼音ng。
5.根据权利要求1所述的基于中文发音视觉特点的唇语识别方法,其特征在于:所述步骤4中V2VP模型以视觉拼音作为建模单元。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011178528.X/1.html,转载请声明来源钻瓜专利网。