[发明专利]一种汉字字形认知相似度确定方法有效

申请号：	201110205807.5	申请日：	2011-07-22
公开（公告）号：	CN102393850B	公开（公告）日：	2016-10-26
发明（设计）人：	王石;王卫民;符建辉	申请（专利权）人：	镇江诺尼基智能技术有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	南京知识律师事务所 32207	代理人：	汪旭东
地址：	212009 江苏省镇江市***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种汉字字形认知相似确定方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种汉字字形认知相似度计算方法，其特征在于：包括以下步骤：

步骤1. 汉字的部件拆分

汉字部件拆分数据库是用于将汉字拆分为树状的层次结构，称为汉字的部件拆分树；每个汉字部件的组成方式包括半包围、独体、品字、全包围、上下、上中下、左右、左中右共8种结构；汉字基本笔画包括36种，如表1所示；

表1 汉字部件数据库中的笔画集合“示例中数字表示示例汉字的第几画是前面的笔画”

ID笔画示例ID笔画示例ID笔画示例ID笔画示例1点之110横竖右勾讠219横左撇又128竖横竖鼎62反点火311横竖左勾万320撇夂129竖横竖左勾马23横十112横竖捺辶221撇横纟130竖撇厂24横勾买113横右弯勾风222撇竖臿331竖右勾民35横撇夭114横折今423撇捺巛132竖左勾于36横竖马115横折横撇及224竖十233提刁27横竖横凸216横折横上勾乙125竖横山134右弯勾戈28横竖横上勾九117横折弯勾阝126竖横撇专335左弯勾犭29横竖横竖左勾乃218横折捺之227竖横上勾儿236捺夂3

步骤2. 两棵部件分析树的对齐操作

对齐操作通过对分枝较少的树进行填充虚拟的空部件来实现；基本思路是，首先建立能够同时覆盖两棵树的超树，然后将两棵树分别嵌入这棵超树，没有填充的节点作为虚拟的空部件，得到相同结构的两颗树；填充后形成的树可能有多个，选择填充后与参照的拆分树最相似的填充方式；

步骤3. 部件分析树中叶子节点间的相似度计算

每个叶子节点都是一个原子部件，是一个线性笔画序列;

叶子节点间的相似度，利用带权重的编辑距离来计算；编辑距离是计算两个序列相似度的一种方式，可以度量一个序列通过增加、删除、替换操作，变成另一个序列的复杂程度；

在汉字的部件分析树中，两个叶子节点”即汉字原子部件”p₁,p₂的相似度如下：

（1）

其中，WED(p₁,p₂)为部件p₁,p₂的笔画编辑距离，WED(p₁,NULL)为p₁与一个不带任何笔画的虚拟空部件的编辑距离;

步骤4. 部件分析树中中间节点间相似度计算

对于两棵结构树，在结构对齐后，可以自底向上计算各个中间节点的相似度；中间节点的相似度，取决于两方面，一是其对应子树间的相似度，二是子树组成中间节点的结构；对于中间节点和根节点node，记其子树节点为集合C(node)，子树部件组n的组合结构为S(node)；给定node₁,node₂，两者的基本相似度为两者的综合：

（2）

显然，这个公式是递归的，递归的终止条件是当c₁,c₂为原子部件时，此时BasicSim(c₁,c₂)=AtomSim(c₁,c₂)，将利用公式（1）进行计算；公式中，组合结构间的相似度函数StruSim的取值由实验得出，如表2给出；

表2 部件组合结构间的相似度权重表

StruSim半包围独体品字全包围上下上中下左右左中右对齐半包围10.600.600000.8独体 100.50.80.70.80.70.8品字 100.30000.8全包围 100000.8上下 10.9000.8上中下 1000.8左右 10.90.8左中右 10.8对齐 0.5

步骤5. 汉字认知显著度因素计算

前面已经给出了两个汉字的基本形似度；若两个汉字在结构、笔画上越一致，那么两者的基本形似度越高；下面利用汉字的频度信息以度量汉字的认知显著度，给出一种计算汉字认知形似度的方法；

(3)

认知相似度函数CogSim考虑了两方面因素；首先是汉字的基本相似度；其次是汉字的认知显著度，用汉字在Web中的字频来体现，其中f(c₁)=为汉字c₁在Web中的字频，通过Google搜索引擎获得；特殊地，若c₁=c₂，则CogSim(c₁,c₂)=1；

步骤6. 基于认知形似度计算和词典的形似别字纠错

当人工标注的含别字句子为“w₁w₂…w_n-1（w_k->w_k'）w_k+1…w_n”，其中w_k（1≤k≤i）为一个词，它包含了别字，其正确的词应当是w_k';

显然，纠正了w_k中别字后的词w_k’，与w_k具有相同的字数;

记w_k=c₁c₂…c_m，w_k'=c₁'c₂'…c_m',其中c_r（1≤r≤m）为一个汉字，不失一般性，假设其中别字为c_r，其w_k'中的正字为c_r';

设别字c_e的认知相似度大于0.6的正字相似字，假设有t个“t为自然数”，按相似度由高到低包括simc₁>simc₂>…>simc_t；按该顺序逐一将这些正字替换掉别字c_r，并检查替换后词wk= c₁c₂…c_r-1simc_ic_r+1…c_m是否在词典中，若在，则表示该正字可用于纠错；

找到第1个可纠错的字后，若该字是人工标注的正字，则表示top-1纠错成功；否则，表示top-1纠错失败，继续找下一个可用于纠错的字，并检查是否top-2纠错成功或失败，以此类推；若检查完所有的正字后均没有找到可纠错的字，那么表示对该别字无法纠错；显然，若top-n纠错成功，那么top-(n+1)也纠错成功（1≤n≤t-1）；

该方法基于一个汉语词典；为了保证所有正确纠错后的词均能在该词典中找到，本方法用其筛选了测试集，只保留了人工纠错后的词存在于该词典中的句子；

本方法借鉴信息检索中的评价指标，采取的评测标准包括top-n纠错的准确率和召回率，具体定义如下：

· top-n纠错准确率：p_n=（top-n纠错成功的句子）/（top-n可纠错的句子数）

· top-n纠错召回率：r_n=（top-n纠错成功的句子）/（测试集中所有句子数）

p_n为在系统完成纠错的所有句子中正确的比例，r_n表示所有句子中成功纠错的比例，两者是互相制约的；在不同的参数下，同一个别字的两个正字相似度的相对高低可能是不同的；若在计算相似度的方法中，确定参数限制候选相似字较少，那么相对来说这些相似字都较准确，这样可提高准确率p_n，但会降低召回率r_n；反之，若本发明扩大候选相似度，那么会提高r_n，降低p_n；下面采用F1值作为两者的综合考虑；

· top-n纠错F1值：F1_n=（2×p_n×r_n）/（p_n + r_n）。

2.根据权利要求1所述的一种汉字字形认知相似度计算方法，其特征在于：所述的步骤2中对齐操作通过对分枝较少的树进行填充虚拟的空部件来实现；具体地分以下两个步骤:

步骤2.1，首先构造能够同时覆盖两棵树的极小超树；

步骤2.2，先将一棵汉字的结构树嵌入超树，嵌入后剩余的节点为该树需要填充的空的节点；嵌入后的两棵树在结构上是完全一致的，两个汉字完成了对齐；对齐后，便可以自底向上地在对应的节点间进行相似度计算，最后得到根节点即两个汉字间的形似度。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于镇江诺尼基智能技术有限公司，未经镇江诺尼基智能技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201110205807.5/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种汉字字形认知相似度确定方法有效

专利文献下载