[发明专利]一种汉字字形认知相似度确定方法有效

申请号：	201110205807.5	申请日：	2011-07-22
公开（公告）号：	CN102393850B	公开（公告）日：	2016-10-26
发明（设计）人：	王石;王卫民;符建辉	申请（专利权）人：	镇江诺尼基智能技术有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	南京知识律师事务所 32207	代理人：	汪旭东
地址：	212009 江苏省镇江市***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	一种汉字字形认知相似度计算方法：步骤1.汉字的部件拆分步骤2.两棵部件分析树的对齐操作步骤3.部件分析树中叶子节点间的相似度计算（1）WED(p₁,p₂)为部件p₁,p₂的笔画编辑距离，WED(p₁,NULL)为p₁与一个不带任何笔画的虚拟空部件的编辑距离。步骤4.部件分析树中中间节点间相似度计算（2）终止条件是当c₁,c₂为原子部件时，此时BasicSim(c₁,c₂)=AtomSim(c₁,c₂)步骤5.汉字认知显著度因素计算(3)f(c₁)=为汉字c₁在Web中的字频，若c₁=c₂，则CogSim(c₁,c₂)=1；步骤6.基于认知形似度计算和词典的形似别字纠错。
搜索关键词：	一种汉字字形认知相似确定方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种汉字字形认知相似度确定方法，其特征在于：包括以下步骤：步骤1.汉字的部件拆分汉字部件拆分数据库是用于将汉字拆分为树状的层次结构，称为汉字的部件拆分树；每个汉字部件的组成方式包括半包围、独体、品字、全包围、上下、上中下、左右、左中右共8种结构；汉字基本笔画包括36种，如表1所示；表1汉字部件数据库中的笔画集合，示例中数字表示示例汉字的第几画是前面的笔画步骤2.两棵部件分析树的对齐操作基本思路是，首先建立能够同时覆盖两棵树的超树，然后将两棵树分别嵌入这棵超树，没有填充的节点作为虚拟的空部件，得到相同结构的两颗树；填充后形成的树可能有多个，选择填充后与参照的拆分树最相似的填充方式；步骤3.部件分析树中叶子节点间的相似度计算每个叶子节点都是一个原子部件，是一个线性笔画序列；叶子节点间的相似度，利用带权重的编辑距离来计算；编辑距离是计算两个序列相似度的一种方式，可以度量一个序列通过增加、删除、替换操作变成另一个序列的复杂程度；在汉字的部件分析树中，两个叶子节点即汉字原子部件u₁，u₂的相似度如下：

<mrow><mi>A</mi><mi>t</mi><mi>o</mi><mi>m</mi><mi>S</mi><mi>i</mi><mi>m</mi><mrow><mo>(</mo><mrow><msub><mi>u</mi><mn>1</mn></msub><mo>,</mo><msub><mi>u</mi><mn>2</mn></msub></mrow><mo>)</mo></mrow><mo>=</mo><mn>1</mn><mo>-</mo><mfrac><mrow><mi>W</mi><mi>E</mi><mi>D</mi><mrow><mo>(</mo><mrow><msub><mi>u</mi><mn>1</mn></msub><mo>,</mo><msub><mi>u</mi><mn>2</mn></msub></mrow><mo>)</mo></mrow></mrow><mrow><mo>(</mo><mrow><mi>W</mi><mi>E</mi><mi>D</mi><mrow><mo>(</mo><mrow><msub><mi>u</mi><mn>1</mn></msub><mo>,</mo><mi>N</mi><mi>U</mi><mi>L</mi><mi>L</mi></mrow><mo>)</mo></mrow><mo>,</mo><mi>W</mi><mi>E</mi><mi>D</mi><mrow><mo>(</mo><mrow><msub><mi>u</mi><mn>2</mn></msub><mo>,</mo><mi>N</mi><mi>U</mi><mi>L</mi><mi>L</mi></mrow><mo>)</mo></mrow></mrow><mo>)</mo></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow>

其中，WED(u_i，u₂)为部件u₁，u₂的笔画编辑距离，WED(u₁，NULL)为u₁与一个不带任何笔画的虚拟空部件的编辑距离；步骤4.部件分析树中中间节点间相似度计算对于两棵结构树，在结构对齐后，可以自底向上计算各个中间节点的相似度；中间节点的相似度，取决于两方面，一是其对应子树间的相似度，二是子树组成中间节点的结构；对于中间节点和根节点node，记其子树节点为集合C(node)，子树部件组的组合结构为S(node)；给定node₁，node₂，两者的基本形似度为两者的综合：

<mrow><mtable><mtr><mtd><mrow><mi>B</mi><mi>a</mi><mi>s</mi><mi>i</mi><mi>c</mi><mi>S</mi><mi>i</mi><mi>m</mi><mrow><mo>(</mo><mrow><msub><mi>node</mi><mn>1</mn></msub><mo>,</mo><msub><mi>node</mi><mn>2</mn></msub></mrow><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><mo>=</mo><mi>S</mi><mi>t</mi><mi>r</mi><mi>u</mi><mi>S</mi><mi>i</mi><mi>m</mi><mrow><mo>(</mo><mrow><mi>S</mi><mrow><mo>(</mo><mrow><msub><mi>node</mi><mn>1</mn></msub></mrow><mo>)</mo></mrow><mo>,</mo><mi>S</mi><mrow><mo>(</mo><mrow><msub><mi>node</mi><mn>2</mn></msub></mrow><mo>)</mo></mrow></mrow><mo>)</mo></mrow><mo>×</mo><msub><mi>Σ</mi><mrow><msub><mi>c</mi><mn>1</mn></msub><mo>&Element;</mo><mi>S</mi><mrow><mo>(</mo><mrow><msub><mi>node</mi><mn>1</mn></msub></mrow><mo>)</mo></mrow><mo>,</mo><msub><mi>c</mi><mn>2</mn></msub><mo>&Element;</mo><mi>S</mi><mrow><mo>(</mo><mrow><msub><mi>node</mi><mn>2</mn></msub></mrow><mo>)</mo></mrow></mrow></msub><mi>B</mi><mi>a</mi><mi>s</mi><mi>i</mi><mi>c</mi><mi>S</mi><mi>i</mi><mi>m</mi><mrow><mo>(</mo><mrow><msub><mi>c</mi><mn>1</mn></msub><mo>,</mo><msub><mi>c</mi><mn>2</mn></msub></mrow><mo>)</mo></mrow></mrow></mtd></mtr></mtable><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow>

显然，这个公式是递归的，递归的终止条件是当c₁，c₂为原子部件时，此时BasicSim(c₁，c₂)＝AtomSim(c₁，c₂)，将利用公式(1)进行计算；公式中，组合结构间的相似度函数StruSim的取值由实验得出，如表2给出；表2部件组合结构间的相似度权重表步骤5.汉字认知显著度因素计算前面已经给出了两个汉字的基本形似度；若两个汉字在结构、笔画上越一致，那么两者的基本形似度越高；下面利用汉字的频度信息以度量汉字的认知显著度，给出一种计算汉字认知形似度的方法；

<mrow><mi>C</mi><mi>o</mi><mi>g</mi><mi>S</mi><mi>i</mi><mi>m</mi><mo>(</mo><mrow><msub><mi>c</mi><mn>1</mn></msub><mo>,</mo><msub><mi>c</mi><mn>2</mn></msub></mrow><mo>)</mo><mo>=</mo><mi>B</mi><mi>a</mi><mi>s</mi><mi>i</mi><mi>c</mi><mi>S</mi><mi>i</mi><mi>m</mi><mrow><mo>(</mo><msub><mi>c</mi><mn>1</mn></msub><mo>,</mo><msub><mi>c</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>×</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><msup><mi>e</mi><mrow><mo>-</mo><mfrac><mrow><mi>f</mi><mrow><mo>(</mo><msub><mi>c</mi><mn>2</mn></msub><mo>)</mo></mrow></mrow><mrow><mi>f</mi><mrow><mo>(</mo><msub><mi>c</mi><mn>1</mn></msub><mo>)</mo></mrow></mrow></mfrac></mrow></msup><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mrow>

认知相似度函数CogSim考虑了两方面因素；首先是汉字的基本形似度；其次是汉字的认知显著度，用汉字在Web中的字频来体现，其中f(c₁)为汉字c₁在Web中的字频，f(c₂)为汉字c₂在Web中的字频，通过Google搜索引擎获得；特殊地，若c₁＝c₂，则CogSim(c₁，c₂)＝1；步骤6.基于认知形似度计算和词典的形似别字纠错当人工标注的含别字句子为“w₁w₂…w_k‑1(w_k‑>w_k’)w_k+1…w_n”，n为句子中的词个数，其中w_k，1≤k≤n，为一个词，它包含了别字，其正确的词应当是w_k’；显然，纠正了w_k中别字后的词w_k’，与w_k具有相同的字数；记w_k＝c_ic₂…c_m，w_k’＝c₁’c₂’…c_m’，假设其中别字为c_r，其在w_k’中的正字为c_r’，其中c_r，1≤r≤m，m为w_k中的字数，不失一般性；设别字c_r的认知相似度大于0.6的正字相似字，假设有t个，t为自然数，按相似度由高到低包括simc₁>simc₂>…>simc_t；按相似度由高到低逐一将这些正字替换掉别字c_r，记其中正字c_i替换c_r后的词为w_k＝c₁c₂…c_r‑1c_ic_r+1…c_m，并检查w_k是否在词典中，若在，则表示该正字可用于纠错，其中1≤i≤t；找到第1个可纠错的字后，若该字是人工标注的正字，则表示top‑1纠错成功；否则，表示top‑1纠错失败，继续找下一个可用于纠错的字，并检查是否top‑2纠错成功或失败，以此类推；若检查完所有的正字后均没有找到可纠错的字，那么表示对该别字无法纠错；显然，若top‑b纠错成功，那么top‑(b+1)也纠错成功，1≤b≤t‑1；形似别字纠错方法基于一个汉语词典；为了保证所有正确纠错后的词均能在该词典中找到，本方法用其筛选了测试集，只保留了人工纠错后的词存在于该词典中的句子；本方法借鉴信息检索中的评价指标，采取的评测标准包括top‑b纠错的准确率和召回率，具体定义如下：·top‑b纠错准确率：p_b＝(top‑b纠错成功的句子)/(top‑b可纠错的句子数)·top‑b纠错召回率：r_b＝(top‑b纠错成功的句子)/(测试集中所有句子数)P_b为在系统完成纠错的所有句子中正确的比例，r_b表示所有句子中成功纠错的比例，两者是互相制约的；在不同的参数下，同一个别字的两个正字相似度的相对高低可能是不同的；若在计算相似度的方法中，确定参数限制候选相似字较少，那么相对来说这些相似字都较准确，这样可提高准确率p_b，但会降低召回率r_b；反之，若扩大候选相似度，那么会提高r_b，降低p_b；下面采用F1值作为两者的综合考虑；·top‑b纠错F1值：F1_b＝(2×p_b×r_b)/(p_b+r_b)。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于镇江诺尼基智能技术有限公司，未经镇江诺尼基智能技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201110205807.5/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种汉字字形认知相似度确定方法有效

专利文献下载