[发明专利]一种汉字字形认知相似度确定方法有效

专利信息
申请号: 201110205807.5 申请日: 2011-07-22
公开(公告)号: CN102393850B 公开(公告)日: 2016-10-26
发明(设计)人: 王石;王卫民;符建辉 申请(专利权)人: 镇江诺尼基智能技术有限公司
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 南京知识律师事务所 32207 代理人: 汪旭东
地址: 212009 江苏省镇江市*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种汉字字形认知相似度计算方法:步骤1.汉字的部件拆分步骤2.两棵部件分析树的对齐操作步骤3.部件分析树中叶子节点间的相似度计算(1)WED(p1,p2)为部件p1,p2的笔画编辑距离,WED(p1,NULL)为p1与一个不带任何笔画的虚拟空部件的编辑距离。步骤4.部件分析树中中间节点间相似度计算(2)终止条件是当c1,c2为原子部件时,此时BasicSim(c1,c2)=AtomSim(c1,c2)步骤5.汉字认知显著度因素计算(3)f(c1)=为汉字c1在Web中的字频,若c1=c2,则CogSim(c1,c2)=1;步骤6.基于认知形似度计算和词典的形似别字纠错。
搜索关键词: 一种 汉字 字形 认知 相似 确定 方法
【主权项】:
一种汉字字形认知相似度确定方法,其特征在于:包括以下步骤:步骤1.汉字的部件拆分汉字部件拆分数据库是用于将汉字拆分为树状的层次结构,称为汉字的部件拆分树;每个汉字部件的组成方式包括半包围、独体、品字、全包围、上下、上中下、左右、左中右共8种结构;汉字基本笔画包括36种,如表1所示;表1汉字部件数据库中的笔画集合,示例中数字表示示例汉字的第几画是前面的笔画步骤2.两棵部件分析树的对齐操作基本思路是,首先建立能够同时覆盖两棵树的超树,然后将两棵树分别嵌入这棵超树,没有填充的节点作为虚拟的空部件,得到相同结构的两颗树;填充后形成的树可能有多个,选择填充后与参照的拆分树最相似的填充方式;步骤3.部件分析树中叶子节点间的相似度计算每个叶子节点都是一个原子部件,是一个线性笔画序列;叶子节点间的相似度,利用带权重的编辑距离来计算;编辑距离是计算两个序列相似度的一种方式,可以度量一个序列通过增加、删除、替换操作变成另一个序列的复杂程度;在汉字的部件分析树中,两个叶子节点即汉字原子部件u1,u2的相似度如下:<mrow><mi>A</mi><mi>t</mi><mi>o</mi><mi>m</mi><mi>S</mi><mi>i</mi><mi>m</mi><mrow><mo>(</mo><mrow><msub><mi>u</mi><mn>1</mn></msub><mo>,</mo><msub><mi>u</mi><mn>2</mn></msub></mrow><mo>)</mo></mrow><mo>=</mo><mn>1</mn><mo>-</mo><mfrac><mrow><mi>W</mi><mi>E</mi><mi>D</mi><mrow><mo>(</mo><mrow><msub><mi>u</mi><mn>1</mn></msub><mo>,</mo><msub><mi>u</mi><mn>2</mn></msub></mrow><mo>)</mo></mrow></mrow><mrow><mo>(</mo><mrow><mi>W</mi><mi>E</mi><mi>D</mi><mrow><mo>(</mo><mrow><msub><mi>u</mi><mn>1</mn></msub><mo>,</mo><mi>N</mi><mi>U</mi><mi>L</mi><mi>L</mi></mrow><mo>)</mo></mrow><mo>,</mo><mi>W</mi><mi>E</mi><mi>D</mi><mrow><mo>(</mo><mrow><msub><mi>u</mi><mn>2</mn></msub><mo>,</mo><mi>N</mi><mi>U</mi><mi>L</mi><mi>L</mi></mrow><mo>)</mo></mrow></mrow><mo>)</mo></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow>其中,WED(ui,u2)为部件u1,u2的笔画编辑距离,WED(u1,NULL)为u1与一个不带任何笔画的虚拟空部件的编辑距离;步骤4.部件分析树中中间节点间相似度计算对于两棵结构树,在结构对齐后,可以自底向上计算各个中间节点的相似度;中间节点的相似度,取决于两方面,一是其对应子树间的相似度,二是子树组成中间节点的结构;对于中间节点和根节点node,记其子树节点为集合C(node),子树部件组的组合结构为S(node);给定node1,node2,两者的基本形似度为两者的综合:<mrow><mtable><mtr><mtd><mrow><mi>B</mi><mi>a</mi><mi>s</mi><mi>i</mi><mi>c</mi><mi>S</mi><mi>i</mi><mi>m</mi><mrow><mo>(</mo><mrow><msub><mi>node</mi><mn>1</mn></msub><mo>,</mo><msub><mi>node</mi><mn>2</mn></msub></mrow><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><mo>=</mo><mi>S</mi><mi>t</mi><mi>r</mi><mi>u</mi><mi>S</mi><mi>i</mi><mi>m</mi><mrow><mo>(</mo><mrow><mi>S</mi><mrow><mo>(</mo><mrow><msub><mi>node</mi><mn>1</mn></msub></mrow><mo>)</mo></mrow><mo>,</mo><mi>S</mi><mrow><mo>(</mo><mrow><msub><mi>node</mi><mn>2</mn></msub></mrow><mo>)</mo></mrow></mrow><mo>)</mo></mrow><mo>&times;</mo><msub><mi>&Sigma;</mi><mrow><msub><mi>c</mi><mn>1</mn></msub><mo>&Element;</mo><mi>S</mi><mrow><mo>(</mo><mrow><msub><mi>node</mi><mn>1</mn></msub></mrow><mo>)</mo></mrow><mo>,</mo><msub><mi>c</mi><mn>2</mn></msub><mo>&Element;</mo><mi>S</mi><mrow><mo>(</mo><mrow><msub><mi>node</mi><mn>2</mn></msub></mrow><mo>)</mo></mrow></mrow></msub><mi>B</mi><mi>a</mi><mi>s</mi><mi>i</mi><mi>c</mi><mi>S</mi><mi>i</mi><mi>m</mi><mrow><mo>(</mo><mrow><msub><mi>c</mi><mn>1</mn></msub><mo>,</mo><msub><mi>c</mi><mn>2</mn></msub></mrow><mo>)</mo></mrow></mrow></mtd></mtr></mtable><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow>显然,这个公式是递归的,递归的终止条件是当c1,c2为原子部件时,此时BasicSim(c1,c2)=AtomSim(c1,c2),将利用公式(1)进行计算;公式中,组合结构间的相似度函数StruSim的取值由实验得出,如表2给出;表2部件组合结构间的相似度权重表步骤5.汉字认知显著度因素计算前面已经给出了两个汉字的基本形似度;若两个汉字在结构、笔画上越一致,那么两者的基本形似度越高;下面利用汉字的频度信息以度量汉字的认知显著度,给出一种计算汉字认知形似度的方法;<mrow><mi>C</mi><mi>o</mi><mi>g</mi><mi>S</mi><mi>i</mi><mi>m</mi><mo>(</mo><mrow><msub><mi>c</mi><mn>1</mn></msub><mo>,</mo><msub><mi>c</mi><mn>2</mn></msub></mrow><mo>)</mo><mo>=</mo><mi>B</mi><mi>a</mi><mi>s</mi><mi>i</mi><mi>c</mi><mi>S</mi><mi>i</mi><mi>m</mi><mrow><mo>(</mo><msub><mi>c</mi><mn>1</mn></msub><mo>,</mo><msub><mi>c</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>&times;</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><msup><mi>e</mi><mrow><mo>-</mo><mfrac><mrow><mi>f</mi><mrow><mo>(</mo><msub><mi>c</mi><mn>2</mn></msub><mo>)</mo></mrow></mrow><mrow><mi>f</mi><mrow><mo>(</mo><msub><mi>c</mi><mn>1</mn></msub><mo>)</mo></mrow></mrow></mfrac></mrow></msup><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mrow>认知相似度函数CogSim考虑了两方面因素;首先是汉字的基本形似度;其次是汉字的认知显著度,用汉字在Web中的字频来体现,其中f(c1)为汉字c1在Web中的字频,f(c2)为汉字c2在Web中的字频,通过Google搜索引擎获得;特殊地,若c1=c2,则CogSim(c1,c2)=1;步骤6.基于认知形似度计算和词典的形似别字纠错当人工标注的含别字句子为“w1w2…wk‑1(wk‑>wk’)wk+1…wn”,n为句子中的词个数,其中wk,1≤k≤n,为一个词,它包含了别字,其正确的词应当是wk’;显然,纠正了wk中别字后的词wk’,与wk具有相同的字数;记wk=cic2…cm,wk’=c1’c2’…cm’,假设其中别字为cr,其在wk’中的正字为cr’,其中cr,1≤r≤m,m为wk中的字数,不失一般性;设别字cr的认知相似度大于0.6的正字相似字,假设有t个,t为自然数,按相似度由高到低包括simc1>simc2>…>simct;按相似度由高到低逐一将这些正字替换掉别字cr,记其中正字ci替换cr后的词为wk=c1c2…cr‑1cicr+1…cm,并检查wk是否在词典中,若在,则表示该正字可用于纠错,其中1≤i≤t;找到第1个可纠错的字后,若该字是人工标注的正字,则表示top‑1纠错成功;否则,表示top‑1纠错失败,继续找下一个可用于纠错的字,并检查是否top‑2纠错成功或失败,以此类推;若检查完所有的正字后均没有找到可纠错的字,那么表示对该别字无法纠错;显然,若top‑b纠错成功,那么top‑(b+1)也纠错成功,1≤b≤t‑1;形似别字纠错方法基于一个汉语词典;为了保证所有正确纠错后的词均能在该词典中找到,本方法用其筛选了测试集,只保留了人工纠错后的词存在于该词典中的句子;本方法借鉴信息检索中的评价指标,采取的评测标准包括top‑b纠错的准确率和召回率,具体定义如下:·top‑b纠错准确率:pb=(top‑b纠错成功的句子)/(top‑b可纠错的句子数)·top‑b纠错召回率:rb=(top‑b纠错成功的句子)/(测试集中所有句子数)Pb为在系统完成纠错的所有句子中正确的比例,rb表示所有句子中成功纠错的比例,两者是互相制约的;在不同的参数下,同一个别字的两个正字相似度的相对高低可能是不同的;若在计算相似度的方法中,确定参数限制候选相似字较少,那么相对来说这些相似字都较准确,这样可提高准确率pb,但会降低召回率rb;反之,若扩大候选相似度,那么会提高rb,降低pb;下面采用F1值作为两者的综合考虑;·top‑b纠错F1值:F1b=(2×pb×rb)/(pb+rb)。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于镇江诺尼基智能技术有限公司,未经镇江诺尼基智能技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201110205807.5/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top