[发明专利]基于单个字符的统计笔迹鉴别和验证方法无效
申请号: | 03109813.4 | 申请日: | 2003-04-11 |
公开(公告)号: | CN1482571A | 公开(公告)日: | 2004-03-17 |
发明(设计)人: | 丁晓青;王贤良;刘长松;彭良瑞;方驰 | 申请(专利权)人: | 清华大学 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/36;G06K9/48;G06F17/16 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100084北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 基于单个字符的统计笔迹鉴别和验证方法属于笔迹鉴别领域。其特征在于,它在对处理字符笔迹对象进行必要预处理后,先提取能很好反映汉字特点的四方向线素特征,再在此基础上,采用下述两种方法之一去选取反映不同书写者差异的最优鉴别特征,其中一种方法是采用直接LDA(线性鉴别分析)变换提取最具鉴别性的特征,另一种方法是先用PCA(主分量分析)变换降维得到最有效的特征,然后用LDA变换提取最具鉴别性的最优鉴别特征。采用欧氏距离分类器进行分类鉴别。本发明的平均鉴别正确率可达92.69%。 | ||
搜索关键词: | 基于 单个 字符 统计 笔迹 鉴别 验证 方法 | ||
【主权项】:
1.基于单个字符的统计笔迹鉴别和验证方法,其特征在于,它在对处理字符笔迹对象进行必要预处理后,先提取能很好反映汉字特点的四方向线素特征,再在此基础上,采用下述两种方法之一去选取反映不同书写者差异的最优鉴别特征,其中一种方法是采用直接LDA(线性鉴别分析)变换提取最具鉴别性的特征,另一种方法是先用PCA(主分量分析)变换降维得到最有效的特征,然后用LDA变换提取最具鉴别性的最优鉴别特征。在由图像采集设备和计算机组成的系统中,它依次含有以下步骤:(1)书写笔迹的采集:扫描输入包含书写者笔迹的文本,先进行书写字符切分,再采用字符识别技术得到相同特征字的笔迹,由此完成用以训练和鉴别的书写者笔迹的采集,建立训练样本数据库;(2)预处理,包含字符位置和大小的线性归一化:(2.1)计算图像的重心:设原始特征字图像为[F(i,j]W×H,其中,W为图像宽度,H为图像高度,F(i,j)为图像位于第i行第j列的象素点的值,则图像的重心G=(Gi,Gj),其中G i = Σ i = 1 W Σ j = 1 H i · F ( i , j ) Σ i = 1 W Σ j = 1 H F ( i , j ) , ]]>G j = Σ i = 1 W Σ j = 1 H i · F ( i , j ) Σ i = 1 W Σ j = 1 H F ( i , j ) ; ]]> (2.2)用重心——中心归一化方法把原始图像归一化到M×M大小:归一化后图像[A(i,j)]M×M在(i,j)处的象素值为原始图像在(m,n)处的象素值![]()
(3)提取特征字符的四方向线素特征:(3.1)用已有的轮廓提取算法提取归一化后的特征字图像[A(i,j)]M×M的轮廓,得到轮廓图像[B(i,j)]M×M;(3.2)四方向线素特征的提取:先把轮廓图像[B(i,j]M×M划分成N1×N1个子块,每个子块的象素宽度为L。分别统计第(k,l)个子块里面具有横、竖、撇、捺方向属性的轮廓点的数目,并记为Ckl(h),Ckl(v),Ckl(+),Ckl(g),其中,1≤k≤N1,1≤l≤N1;再次把轮廓图像[B(i,j)]M×M划分成N2×N2个小图像块。其中第(x,y)个小图像块(1≤x≤N2,1≤y≤N2)由子块(k,l)构成,这里(k,l)∈Dxy,Dxy表示如下子块构成的集合Dxy={(k,l)max(1,2x-2)≤k≤min(N1,2x),max(1,2y-2)≤l≤min(N1,2y)}该小图像块的中心子块为(2x-1,2y-1),N1=2N2-1。从第m(m=N2·x+y)个小图像块中抽取四方向线素特征C m ( h ) ( x , y ) = Σ ( k , l ) ∈ D xy C kl ( h ) · w ( k - ( 2 x - 1 ) , l - ( 2 y - 1 ) ) ]]>C m ( h ) ( x , y ) = Σ ( k , l ) ∈ D xy C kl ( h ) · w ( k - ( 2 x - 1 ) , l - ( 2 y - 1 ) ) ]]>C m ( h ) ( x , y ) = Σ ( k , l ) ∈ D xy C kl ( h ) · w ( k - ( 2 x - 1 ) , l - ( 2 y - 1 ) ) ]]>C m ( h ) ( x , y ) = Σ ( k , l ) ∈ D xy C kl ( h ) · w ( k - ( 2 x - 1 ) , l - ( 2 y - 1 ) ) ]]> 其中w ( u , v ) = 1 2 πσ 2 exp ( - u 2 + v 2 2 σ 2 ) ]]> 是高斯加权函数,这里σ = 2 t π , ]]> t是小图像块的交叠宽度,取t=1;(3.3)把每个小图像块得到的特征向量合并成一个维数为4N22的特征向量,即为四方向线素特征VV = [ C 1 ( h ) , C 1 ( v ) , C 1 ( + ) , C 1 ( - ) , · · · , C N 2 2 ( h ) , C N 2 2 ( v ) , C N 2 2 ( + ) , C N 2 2 ( - ) ] T ; ]]> (4)线性特征变换设书写者数目为c,对第r(1≤r≤c)个书写者的特征字样本采用上述方法提取四方向线素特征,得到其特征向量集合为{V1(r),V2(r),...,
},其中Kr为该书写者训练样本数目,Vj(r)(j=1,2,...,Kr)是4N22维的特征向量;则利用直接LDA变换提取最具鉴别性的特征如下:先计算每个书写者r(1≤r≤c)特征向量的中心μr和所有书写者特征向量的中心μμ r = 1 K r Σ j = 1 K r V j ( r ) , ]]>μ = 1 c Σ r = 1 c μ r ]]> 再计算类间散度矩阵Sb和平均类内散度矩阵SwS b = 1 c Σ r = 1 c ( μ r - μ ) ( μ r - μ ) T ]]>S w = 1 c Σ r = 1 c 1 K r Σ j = 1 K r ( V j ( r ) - μ r ) ( V j ( r ) - μ r ) T ]]> 寻找最佳变换矩阵W,使
最大,则相应的特征变换为Z=WTV;(5)进行基于单个字符的统计笔迹鉴别,即已知某未知书写者的特征字笔迹样本是由c个书写者中的某个人书写的,现要确定该特征字笔迹样本的书写者是这c个书写者中的哪一个;(5.1)设计分类器对最具可分性的特征向量Z,计算所有书写者的均值向量Z ( r ) ‾ ( r = 1,2 , . . . , c ) , ]]>Z ( r ) ‾ = 1 K r Σ j = 1 K r Z j ( r ) , ]]> 其中每个书写者r(1≤r≤c)的最具可分性的特征集合为{Z1(r),Z2(r),...,
},将各书写者的鉴别特征均值向量存入鉴别特征数据库文件中;(5.2)鉴别对未知书写者的特征字,首先归一化,再提取四方向线素特征向量V,采用特征变换矩阵W将特征向量V变换为Z=WTV=[z1,z2,...zc,]T,d是变换后特征的维数;从库文件中读出所有书写者的均值向量Z ( r ) ‾ = [ z 1 ( r ) ‾ , z 2 ( r ) ‾ , . . . , z d ( r ) ‾ ] T , r = 1,2 , . . . , c , ]]> 计算Z到
的欧氏距离D(r)D ( r ) = Σ j = 1 d ( z j - z j ( r ) ‾ ) , 1 ≤ r ≤ c ]]> 若D ( k ) = min 1 ≤ r ≤ c D ( r ) , ]]> 则该特征字是由书写者k书写的,即k = arg r ( min 1 ≤ r ≤ c D ( r ) ) ; ]]> (6)进行基于单个字符的统计笔迹验证,即对于输入的某个未知笔迹,判断是否为某个书写者写的:(6.1)生成验证数据库文件设有K1个真笔迹样本,K2个伪笔迹样本,分别计算真样本和伪样本的均值![]()
z ( t ) ‾ = 1 K 1 Σ J = 1 K 1 z J ( t ) , i = 1,2 , ]]> 则判别域值h = z ( 1 ) ‾ + z ( 2 ) ‾ 2 . ]]> 将判别域值和变换矩阵存入验证数据库文件中;(6.2)验证对需要验证的笔迹样本,首先归一化,再提取四方向线素特征V,采用特征变换矩阵W将特征变换为z=WTV,则判别规则为:若z≤h,则接受z,否则,拒绝z。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/03109813.4/,转载请声明来源钻瓜专利网。
- 上一篇:借助校正数据参数调整影像的方法
- 下一篇:票据图象处理装置