[发明专利]一种汉字字形认知相似度确定方法有效

专利信息
申请号: 201110205807.5 申请日: 2011-07-22
公开(公告)号: CN102393850B 公开(公告)日: 2016-10-26
发明(设计)人: 王石;王卫民;符建辉 申请(专利权)人: 镇江诺尼基智能技术有限公司
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 南京知识律师事务所 32207 代理人: 汪旭东
地址: 212009 江苏省镇江市*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 汉字 字形 认知 相似 确定 方法
【权利要求书】:

1.一种汉字字形认知相似度计算方法,其特征在于:包括以下步骤:

步骤1. 汉字的部件拆分

汉字部件拆分数据库是用于将汉字拆分为树状的层次结构,称为汉字的部件拆分树;每个汉字部件的组成方式包括半包围、独体、品字、全包围、上下、上中下、左右、左中右共8种结构;汉字基本笔画包括36种,如表1所示;

表1  汉字部件数据库中的笔画集合“示例中数字表示示例汉字的第几画是前面的笔画”

ID笔画示例ID笔画示例ID笔画示例ID笔画示例1之110横竖右勾讠219横左撇又128竖横竖鼎62反点火311横竖左勾万320夂129竖横竖左勾马23十112横竖捺辶221撇横纟130竖撇厂24横勾买113横右弯勾风222撇竖臿331竖右勾民35横撇夭114横折今423撇捺巛132竖左勾于36横竖马115横折横撇及224十233刁27横竖横凸216横折横上勾乙125竖横山134右弯勾戈28横竖横上勾九117横折弯勾阝126竖横撇专335左弯勾犭29横竖横竖左勾乃218横折捺之227竖横上勾儿236夂3

步骤2.  两棵部件分析树的对齐操作

对齐操作通过对分枝较少的树进行填充虚拟的空部件来实现;基本思路是,首先建立能够同时覆盖两棵树的超树,然后将两棵树分别嵌入这棵超树,没有填充的节点作为虚拟的空部件,得到相同结构的两颗树;填充后形成的树可能有多个,选择填充后与参照的拆分树最相似的填充方式;

步骤3. 部件分析树中叶子节点间的相似度计算

每个叶子节点都是一个原子部件,是一个线性笔画序列;

叶子节点间的相似度,利用带权重的编辑距离来计算;编辑距离是计算两个序列相似度的一种方式,可以度量一个序列通过增加、删除、替换操作,变成另一个序列的复杂程度;

在汉字的部件分析树中,两个叶子节点”即汉字原子部件”p1,p2的相似度如下:

                                  (1)

其中,WED(p1,p2)为部件p1,p2的笔画编辑距离,WED(p1,NULL)为p1与一个不带任何笔画的虚拟空部件的编辑距离;

步骤4. 部件分析树中中间节点间相似度计算

对于两棵结构树,在结构对齐后,可以自底向上计算各个中间节点的相似度;中间节点的相似度,取决于两方面,一是其对应子树间的相似度,二是子树组成中间节点的结构;对于中间节点和根节点node,记其子树节点为集合C(node),子树部件组n的组合结构为S(node);给定node1,node2,两者的基本相似度为两者的综合:

                    (2)

显然,这个公式是递归的,递归的终止条件是当c1,c2为原子部件时,此时BasicSim(c1,c2)=AtomSim(c1,c2),将利用公式(1)进行计算;公式中,组合结构间的相似度函数StruSim的取值由实验得出,如表2给出;

表2  部件组合结构间的相似度权重表

StruSim半包围独体品字全包围上下上中下左右左中右对齐半包围10.600.600000.8独体 100.50.80.70.80.70.8品字  100.30000.8全包围   100000.8上下    10.9000.8上中下     1000.8左右      10.90.8左中右       10.8对齐        0.5

步骤5. 汉字认知显著度因素计算

前面已经给出了两个汉字的基本形似度;若两个汉字在结构、笔画上越一致,那么两者的基本形似度越高;下面利用汉字的频度信息以度量汉字的认知显著度,给出一种计算汉字认知形似度的方法;

                                         (3)

认知相似度函数CogSim考虑了两方面因素;首先是汉字的基本相似度;其次是汉字的认知显著度,用汉字在Web中的字频来体现,其中f(c1)=为汉字c1在Web中的字频,通过Google搜索引擎获得;特殊地,若c1=c2,则CogSim(c1,c2)=1;

步骤6. 基于认知形似度计算和词典的形似别字纠错

当人工标注的含别字句子为“w1w2…wn-1(wk->wk')wk+1…wn”,其中wk(1≤k≤i)为一个词,它包含了别字,其正确的词应当是wk';

显然,纠正了wk中别字后的词wk’,与wk具有相同的字数;

记wk=c1c2…cm,wk'=c1'c2'…cm',其中cr(1≤r≤m)为一个汉字,不失一般性,假设其中别字为cr,其wk'中的正字为cr';

设别字ce的认知相似度大于0.6的正字相似字,假设有t个“t为自然数”,按相似度由高到低包括simc1>simc2>…>simct;按该顺序逐一将这些正字替换掉别字cr,并检查替换后词wk= c1c2…cr-1simcicr+1…cm是否在词典中,若在,则表示该正字可用于纠错;

找到第1个可纠错的字后,若该字是人工标注的正字,则表示top-1纠错成功;否则,表示top-1纠错失败,继续找下一个可用于纠错的字,并检查是否top-2纠错成功或失败,以此类推;若检查完所有的正字后均没有找到可纠错的字,那么表示对该别字无法纠错;显然,若top-n纠错成功,那么top-(n+1)也纠错成功(1≤n≤t-1);

该方法基于一个汉语词典;为了保证所有正确纠错后的词均能在该词典中找到,本方法用其筛选了测试集,只保留了人工纠错后的词存在于该词典中的句子;

本方法借鉴信息检索中的评价指标,采取的评测标准包括top-n纠错的准确率和召回率,具体定义如下:

· top-n纠错准确率:pn=(top-n纠错成功的句子)/(top-n可纠错的句子数)

· top-n纠错召回率:rn=(top-n纠错成功的句子)/(测试集中所有句子数)

pn为在系统完成纠错的所有句子中正确的比例,rn表示所有句子中成功纠错的比例,两者是互相制约的;在不同的参数下,同一个别字的两个正字相似度的相对高低可能是不同的;若在计算相似度的方法中,确定参数限制候选相似字较少,那么相对来说这些相似字都较准确,这样可提高准确率pn,但会降低召回率rn;反之,若本发明扩大候选相似度,那么会提高rn,降低pn;下面采用F1值作为两者的综合考虑;

· top-n纠错F1值:F1n=(2×pn×rn)/(pn + rn)   。

2.根据权利要求1所述的一种汉字字形认知相似度计算方法,其特征在于:所述的步骤2中对齐操作通过对分枝较少的树进行填充虚拟的空部件来实现;具体地分以下两个步骤:

步骤2.1,首先构造能够同时覆盖两棵树的极小超树;

步骤2.2,先将一棵汉字的结构树嵌入超树,嵌入后剩余的节点为该树需要填充的空的节点;嵌入后的两棵树在结构上是完全一致的,两个汉字完成了对齐;对齐后,便可以自底向上地在对应的节点间进行相似度计算,最后得到根节点即两个汉字间的形似度。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于镇江诺尼基智能技术有限公司,未经镇江诺尼基智能技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110205807.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top