[发明专利]一种汉字字形认知相似度确定方法有效
申请号: | 201110205807.5 | 申请日: | 2011-07-22 |
公开(公告)号: | CN102393850B | 公开(公告)日: | 2016-10-26 |
发明(设计)人: | 王石;王卫民;符建辉 | 申请(专利权)人: | 镇江诺尼基智能技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 汪旭东 |
地址: | 212009 江苏省镇江市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 汉字 字形 认知 相似 确定 方法 | ||
1.一种汉字字形认知相似度计算方法,其特征在于:包括以下步骤:
步骤1. 汉字的部件拆分
汉字部件拆分数据库是用于将汉字拆分为树状的层次结构,称为汉字的部件拆分树;每个汉字部件的组成方式包括半包围、独体、品字、全包围、上下、上中下、左右、左中右共8种结构;汉字基本笔画包括36种,如表1所示;
表1 汉字部件数据库中的笔画集合“示例中数字表示示例汉字的第几画是前面的笔画”
步骤2. 两棵部件分析树的对齐操作
对齐操作通过对分枝较少的树进行填充虚拟的空部件来实现;基本思路是,首先建立能够同时覆盖两棵树的超树,然后将两棵树分别嵌入这棵超树,没有填充的节点作为虚拟的空部件,得到相同结构的两颗树;填充后形成的树可能有多个,选择填充后与参照的拆分树最相似的填充方式;
步骤3. 部件分析树中叶子节点间的相似度计算
每个叶子节点都是一个原子部件,是一个线性笔画序列;
叶子节点间的相似度,利用带权重的编辑距离来计算;编辑距离是计算两个序列相似度的一种方式,可以度量一个序列通过增加、删除、替换操作,变成另一个序列的复杂程度;
在汉字的部件分析树中,两个叶子节点”即汉字原子部件”p1,p2的相似度如下:
(1)
其中,WED(p1,p2)为部件p1,p2的笔画编辑距离,WED(p1,NULL)为p1与一个不带任何笔画的虚拟空部件的编辑距离;
步骤4. 部件分析树中中间节点间相似度计算
对于两棵结构树,在结构对齐后,可以自底向上计算各个中间节点的相似度;中间节点的相似度,取决于两方面,一是其对应子树间的相似度,二是子树组成中间节点的结构;对于中间节点和根节点node,记其子树节点为集合C(node),子树部件组n的组合结构为S(node);给定node1,node2,两者的基本相似度为两者的综合:
(2)
显然,这个公式是递归的,递归的终止条件是当c1,c2为原子部件时,此时BasicSim(c1,c2)=AtomSim(c1,c2),将利用公式(1)进行计算;公式中,组合结构间的相似度函数StruSim的取值由实验得出,如表2给出;
表2 部件组合结构间的相似度权重表
步骤5. 汉字认知显著度因素计算
前面已经给出了两个汉字的基本形似度;若两个汉字在结构、笔画上越一致,那么两者的基本形似度越高;下面利用汉字的频度信息以度量汉字的认知显著度,给出一种计算汉字认知形似度的方法;
(3)
认知相似度函数CogSim考虑了两方面因素;首先是汉字的基本相似度;其次是汉字的认知显著度,用汉字在Web中的字频来体现,其中f(c1)=为汉字c1在Web中的字频,通过Google搜索引擎获得;特殊地,若c1=c2,则CogSim(c1,c2)=1;
步骤6. 基于认知形似度计算和词典的形似别字纠错
当人工标注的含别字句子为“w1w2…wn-1(wk->wk')wk+1…wn”,其中wk(1≤k≤i)为一个词,它包含了别字,其正确的词应当是wk';
显然,纠正了wk中别字后的词wk’,与wk具有相同的字数;
记wk=c1c2…cm,wk'=c1'c2'…cm',其中cr(1≤r≤m)为一个汉字,不失一般性,假设其中别字为cr,其wk'中的正字为cr';
设别字ce的认知相似度大于0.6的正字相似字,假设有t个“t为自然数”,按相似度由高到低包括simc1>simc2>…>simct;按该顺序逐一将这些正字替换掉别字cr,并检查替换后词wk= c1c2…cr-1simcicr+1…cm是否在词典中,若在,则表示该正字可用于纠错;
找到第1个可纠错的字后,若该字是人工标注的正字,则表示top-1纠错成功;否则,表示top-1纠错失败,继续找下一个可用于纠错的字,并检查是否top-2纠错成功或失败,以此类推;若检查完所有的正字后均没有找到可纠错的字,那么表示对该别字无法纠错;显然,若top-n纠错成功,那么top-(n+1)也纠错成功(1≤n≤t-1);
该方法基于一个汉语词典;为了保证所有正确纠错后的词均能在该词典中找到,本方法用其筛选了测试集,只保留了人工纠错后的词存在于该词典中的句子;
本方法借鉴信息检索中的评价指标,采取的评测标准包括top-n纠错的准确率和召回率,具体定义如下:
· top-n纠错准确率:pn=(top-n纠错成功的句子)/(top-n可纠错的句子数)
· top-n纠错召回率:rn=(top-n纠错成功的句子)/(测试集中所有句子数)
pn为在系统完成纠错的所有句子中正确的比例,rn表示所有句子中成功纠错的比例,两者是互相制约的;在不同的参数下,同一个别字的两个正字相似度的相对高低可能是不同的;若在计算相似度的方法中,确定参数限制候选相似字较少,那么相对来说这些相似字都较准确,这样可提高准确率pn,但会降低召回率rn;反之,若本发明扩大候选相似度,那么会提高rn,降低pn;下面采用F1值作为两者的综合考虑;
· top-n纠错F1值:F1n=(2×pn×rn)/(pn + rn) 。
2.根据权利要求1所述的一种汉字字形认知相似度计算方法,其特征在于:所述的步骤2中对齐操作通过对分枝较少的树进行填充虚拟的空部件来实现;具体地分以下两个步骤:
步骤2.1,首先构造能够同时覆盖两棵树的极小超树;
步骤2.2,先将一棵汉字的结构树嵌入超树,嵌入后剩余的节点为该树需要填充的空的节点;嵌入后的两棵树在结构上是完全一致的,两个汉字完成了对齐;对齐后,便可以自底向上地在对应的节点间进行相似度计算,最后得到根节点即两个汉字间的形似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于镇江诺尼基智能技术有限公司,未经镇江诺尼基智能技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110205807.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:提高海洋工程船载货量的方法
- 下一篇:一种捣固U型管导烟车及其工作方法