[发明专利]中文型文字及文字偏旁的分类及检索的系统与方法有效
申请号: | 200880125478.X | 申请日: | 2008-11-25 |
公开(公告)号: | CN102016837A | 公开(公告)日: | 2011-04-13 |
发明(设计)人: | 沃伦·丹尼尔·蔡尔德 | 申请(专利权)人: | 沃伦·丹尼尔·蔡尔德 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 11038 | 代理人: | 马景辉 |
地址: | 美国*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中文 文字 偏旁 分类 检索 系统 方法 | ||
相关申请
本申请要求以下申请的权益:
2007年11月26日提交的美国临时申请No.60/990,123,名称为“Method,Apparatus and Software For Classifying Chinese-TypeCharacters and Character Components to Facilitate Classification,Search and Retrieval”;
2007年11月26日提交的美国临时申请No.60/990,166,名称为“Modular Approach to Managing Chinese,Japanese,and KoreanLinguistic Data in Electronic Contexts”;以及
2007年11月29日提交的美国临时申请No.60/991,010,名称为“Method,Apparatus and Software for Classifying Chinese-TypeCharacters and Character Components to Facilitate Classification,Search and Retrieval”,
上述各申请通过引用而全部包含于此。
技术领域
本发明的实施例于总的涉及语言文字的分类与取回,尤其是,用以分类中文字型文字及其构成重复出现的偏旁(以下统称“重现偏旁”)的方法与设备,以使取回容易。
背景技术
中文、日文、韩文及越南文传统上均使用几千个中文起源的文字的书写系统。另外,在日文、韩文及越南文的学者也建立了母语起源的、类似中文文字的其他文字。这些后来的文字被称为国字(kokuji,日本起源)、汉字(gugja,韩国起源)及chunon(越南起源)文字。因为中文起源及中文状(国字、汉字及chunon)文字也有很多并且使用原理与西方表音字母的原理不同,但一直有将其系统分类的需求。(为了简明起见,中文起源与中文状文字将一起统称为“中文型文字”)。在仍使用此等文字的语言中,即中文、日文、韩文,这些需要在今日依旧存在。
在常用技术中,学者已经传统上使用称为部首的偏旁的常用组加以分类。目前的当代字典典型地使用214个部首。然而,所用部首的准确数量仍取决于书写体(script type)(简体中文字典有时列227、187或154)、目标读者(现今部分非母语者用的字典愈来愈少)、及/或是否异体部首形式可分开计算。字典表中列出的部首的顺序也取决于其笔画数,即用来构成部首的笔画的数目。具有相同笔画数的部首的顺序是根据习惯加以排序。
部首为初步查找关键字的一种形式,大致类似于西方语言字典中的词的开始字母。为了使用传统部首系统查找在字典中的文字,第一步为决定文字的哪一部分构成该部首,然后,计数在该文字中的剩余笔画。例如,为了查出“像”,首先识别出,其被分类在2画的人字旁[亻]。下一步为算出剩余笔画数。在此时,剩余笔画为12。最后,可以查找字典中包含人字旁的含有剩余12画的文字的部分。结果是以该部首与剩余笔画查找准则选择的一组文字。(由查询得到的文字选择简称为“查找结果组”或简称“结果组”。)例如,前述例子,一个主要字典有包含14个文字的查找结果组;文字的万国码(Unicode)表将得到超出40个文字的结果组。
部首系统的缺点之一为由部首与剩余笔画作为查找准则的组合所选择的文字数可能太多。(注意部分字典使用总笔画数,而不是剩余笔画数,但对于任意给定文字域,结果组相同)。第二缺点为很多文字并不像上面例子中那样直接。仍需要部分猜想工作,以决定文字的哪一部分构成部首;有时有一个以上的明显候选部首,有时则没有明显候选部首。
使用部首系统加速文字查找的第二传统方法已经将部首分类为在文字内所在的位置。因此,例如,新纳尔森日文字典表示分别在文字的左、右、上、及下所找到的部首的分开图。这使得我们可以较快找出部首,但对于以该部首参考的文字数并无影响,或对于文字的哪部分构成部首也没有帮助。
第三种分类中文型文字的传统方法是实施于Hadamitzky&Spahn的字典中并主要设计以协助非母语者,由此免除较少使用部首,然后,在被免除部首进入部分其他部首群下,使文字进行传统分类。虽然此方法可能协助降低少用部首的分类系统的异常,但这仍不会降低查找结果组的大小,事实上,可能增加该大小。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沃伦·丹尼尔·蔡尔德,未经沃伦·丹尼尔·蔡尔德许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200880125478.X/2.html,转载请声明来源钻瓜专利网。