[发明专利]一种汉语唇语单音节识别分类器构建方法在审
申请号: | 202010395570.0 | 申请日: | 2020-05-12 |
公开(公告)号: | CN111582195A | 公开(公告)日: | 2020-08-25 |
发明(设计)人: | 朱红;刘乐;王恒毅 | 申请(专利权)人: | 中国矿业大学(北京) |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 汤东凤 |
地址: | 100083 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 汉语 唇语单 音节 识别 分类 构建 方法 | ||
1.一种汉语唇语单音节识别分类器构建方法,其特征在于,包括如下步骤:
S1、采集待识别汉字单音节的发音视频;
S2、构建唇部特征点标注图像样本集:
所述唇部特征点标注图像样本集的原始图像包括来自步骤S1中筛选的发音视频,还包括来自其他视频的采样,图像中要求唇部信息完整,即唇部轮廓清晰可见;
为每一幅原始图像的唇部边缘手工标注20个特征点得到唇部特征点标注图像,所有唇部特征点标注图像的集合为唇部特征点标注图像样本集;特征点包括两侧唇角的外沿点C1、C2,两侧唇角的内沿点C3、C4,两个唇峰的上唇外沿最高点U3、U5;两个唇峰间的上唇外沿最低点U4,C1与U3之间的上唇外沿中间点U2,C2与U5之间的上唇外沿中间点U6,上唇内沿点U7、U8,下唇外沿点L2、L3、L4、L5、L6;下唇内沿点L7、L8;U3与U7所在直线垂直于C3与C4所在直线,U5与U8所在直线垂直于C3与C4所在直线;L2为C1与L3之间的下唇外沿中间点,L5与U5所在直线垂直于C1与C2所在直线,L6与U6所在直线垂直于C1与C2所在直线;L6为C2与L5之间的下唇外沿中间点;L4为C1与C2之间的下唇外沿中间点;L7与U7所在直线垂直于C3与C4所在直线,L8与U8所在直线垂直于C3与C4所在直线;
S3、训练唇部特征点提取模型:
训练集的唇部向量为:
xi=(xi0,yi0,xi1,yi1,…,xi19,yi19)T;
式中,xi表示第i幅唇部特征点标注图像中的所有特征点构成的唇部向量,(xik,yik)表示图像中第k个特征点的横、纵坐标;
训练唇部特征点提取模型的具体步骤为:
S3.1、从唇部特征点标注图像样本集中选择一个唇部模型作为基准模型,将唇部特征点标注图像样本集中其他所有唇部模型对齐到基准模型,对齐是指将一系列唇部模型通过旋转、平移、缩放变换,在不改变模型的基础上对齐到基准模型上;
S3.2、计算平均唇部模型;
S3.3、将唇部特征点标注图像样本集中所有唇部模型对齐到步骤S3.2计算得到的平均唇部模型;
S3.4、重复步骤S3.2-S3.3直到收敛,收敛的条件为使下式最小化:
Ej=(xi-M(sj,θj)[xj]-tj)TW(xi-M(sj,θj)[xj]-tj);
式中,xi、xj为第i幅和第j幅唇部特征点标注图像中的所有特征点构成的唇部向量,i≠j;sj表示第j幅唇部特征点标注图像的唇部模型的缩放系数;M(sj,θj)[xj]为第j幅唇部特征点标注图像的唇部模型的变化函数;tj表示第j幅唇部特征点标注图像的唇部模型的平移向量,tj=(txj,tyj,…,txj,tyj)T,txj,tyj分别表示第j幅唇部特征点标注图像的唇部模型每个点的横坐标和纵坐标的偏移量,每个点的横坐标和纵坐标的偏移量相等;θj表示第j幅唇部特征点标注图像的唇部模型的旋转系数;W为一个对角矩阵,其对角线中的每一项为k表示唇部模型中的一个特征点,其中,n为唇部模型中特征点的个数,Rkl表示唇部模型中两个特征点k和l之间的距离;表示距离Rkl的方差;
S4、将步骤S1中采集的待识别汉语单音节发音视频均匀切分得到采样图像;
S5、利用步骤S3训练所得的唇部特征点提取模型对步骤S4所得的每一帧采样图像分别进行特征点提取,提取过程具体为:
S5.1、对唇部特征点提取模型进行仿射变换得到一个初始模型:
X=M(Tp)+Xc;
该式表示对唇部特征点提取模型通过仿射变换Tp以及平移Xc得到初始模型X;
S5.2、使用初始模型X在步骤S4所得的每一帧图像中搜索目标形状,使搜索到的最终形状中的特征点和相对应的真正特征点最为接近;每一帧图像提取得到的特征点构成唇部特征点集;
S6、根据步骤S5所得的唇部特征点集,分别构建每一帧图像的唇部几何特征;根据两点之间距离,构建几何特征序列X=(W1,W2,…,W8,H1,H2,H3)如下:
W1=D(C1,C2);
W2=D(U2,U6);
W3=D(U3,U5);
W4=D(L2,L6);
W5=D(L3,L5);
W6=D(C3,C4);
W7=D(U7,U8);
W8=D(L7,L8);
H1=D(U2,L2);
H2=D(U3,L3);
H3=D(U4,L4);
其中,W1,W2,…,W8,H1,H2,H3为人为设定的几何特征名称;
按顺序组合所得的几何特征序列,得到同一汉语单音节发音视频的11维几何特征;将同一汉语单音节发音视频的图像的几何特征保存并归一化;
将每个几何特征序列X=(W1,W2,…,W8,H1,H2,H3)线性组合μ得到一组新的几何特征序列Y=(Y1,Y2,…,Y7):
Y=μXT;
T为转置符;
S7、将步骤S6中所得的新的属于同一发音视频的帧的全部几何特征序列按顺序保存,并标明所属类别,得到每个发音视频的特征矩阵;类别为人为设定,以整数f为类别标签(f=0,1,2,…);
S8、利用步骤S7所得每个发音视频的特征矩阵,训练得到唇语识别器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国矿业大学(北京),未经中国矿业大学(北京)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010395570.0/1.html,转载请声明来源钻瓜专利网。