[发明专利]电子计算机汉字词语码编码技术无效
申请号: | 00106604.8 | 申请日: | 2000-04-04 |
公开(公告)号: | CN1316686A | 公开(公告)日: | 2001-10-10 |
发明(设计)人: | 曾养志 | 申请(专利权)人: | 曾养志 |
主分类号: | G06F3/023 | 分类号: | G06F3/023 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650201 *** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电子计算机 汉字 词语 编码 技术 | ||
随着电子计算机技术的发展,计算机已在各种信息领域得到广泛应用。语言文字的处理是其重要内容。在我国现实生活中,大量的常规信息—报纸、刊物、书籍、科学技术文献、政府日常公务、商业贸易往来以及工农业生产和民众生活等等,都涉及到汉字的电子计算机处理。中国人口达12亿,加上国外会使用汉字的华人、华侨及周边国家和地区仍在继续使用汉字的人数几乎占全世界总入口的四分之一,因此,汉字的计算机编码技术,一直是汉字信息处理的关键,是中国汉语语言文字工作者及计算机编码人员研究和解决的重要课题。
八十年代初,王永明率先推出了“五笔字型输入法”,随后又相继推出各种拼音码(全拼、简拼和双拼等)、自然码、大众码等。迄今为止,已申请专利的汉字编码输入法已达数百种。其中,五笔字型输入法、拼音码和自然码等十多种较优秀的编码已得到广泛应用和推广,为中国的电子计算机汉字输入和信息处理作出了重要贡献。
然而,目前所有已推广应用的编码技术方案,多数仍停留在汉字特有的“单字”处理阶段。对此,国家语言文字工作委员会主任许嘉璐曾指出:我们要正视当前语言学和中文信息处理之间距离过大的现实,并且应当努力去改变它。他说:“目前,中文信息处理虽然已实现了‘字处理’,但这只是信息处理的初级阶段。要实现计算机中文信息的高速处理,做到计算机在全国乃至跟世界连网,就必须超越‘字处理’阶段,对(汉语)语言中的词、短语和句子以及语言的应用规律进行深入的研究,同时,在此基础上制定电子计算机所用的语言和文字规范与标准,并进行严格的管理”(见《科技日报》1997年12月1日第一版)。
尽管许多编码声称可以任意编码双字词、三字词、四字词和多字词,并在近期推出了许多组词更多、含多字词词语更广的新的编码,但在实际应用中,有的不仅需要进行繁杂的拆分组合(如形码),而且重码太多,所收汉语词语数量也并不广泛(如目前的各种拼音码、自然码等)。以最新版的“全拼”和“双拼”来看,虽然所收的词语增加较多,双字词组至七字八字词语或短语都有了,但其编码极不规范,例如,当键入“zhong”这个音节加声母“g”后,显示屏上即出现“忠告”、“重工业”、“中共中央”、“中国共产党”、“中国工商银行”、“中共中央总书记”以及“中共中央政治局常委”等64个并不直接相关的词组和词语,使用者必须在7次“翻页”中的数百个词语里去寻找所需要的那个词组或短语,即使按照拼音拼下去,由于汉语的同音字词太多,仍然有着大量重码。
实际上,目前已推广应用的以“五笔字型”为代表的“形码”和各类拼音码,除了编码是着眼于汉字单字的“字处理”外,编码本身依然存在着不可克服的缺点。首先,形码需将一个完整的字进行笔画拆分,且不说这种拆分是编制者人为规定的“形”,而且每个字的拆分过程就是一种新的组合。人们可以习惯地记住每一句话的发音和每个字的偏旁部首,却记不住每一个字的笔画需要按规定拆分3-4次;其次,拆分之后组合成一个完整的字或词的编码,还需去寻找规定的“反应部件键位”,只有拆分部件正确无误之后,才能寻找部件键位,再按规定键位击键,所需的那个字才能被检出。还有一个末笔字型交叉识别问题,即使是熟练的专业录入人员也常出错。相对于拼音码,五笔字型的单字检出重码较少。但是,录入者需经较长时间的专业训练,需记住许多规则、键盘和键位,否则,非专业人员很难记住所规定的拆分和键位,这就是五笔字型在非专业录入人员中难以推广和普及的原因。
五笔字型编码也编制了词汇码,其原理是以单字的代码为基础,完全依据组成词汇的每一个单字的笔画拆分以后再组成与单字代码码型一致的词汇编码。其规则是:双字词分别取两字的前两个字根代码共4码组成:三字词为前两字各取第一个字根码,最后一字取前两码,也是4码组成:四字词则每字各取第一码,仍然是4码组成:多字词按“1-2-3-末”字各取第一码的规则,依然是4码组成。这种对词组、词汇和词语的取码方法,又是一种新的拆分组合,且往往是在临用时才能进行拆分(因为使用者记不住那么多的词汇应该是何种组合),既费神,又费时。而且,每个字只取第一码的弊病是重码必然太多。因为第一字根笔画相同的汉字必然大大多于一个字拆3-4个字根的字。其结果必然是:扩展的词汇和词语越多,重码也将越多,尤其是多字词组成的词语,例如“国营企业”、“国营企事业”,“第十一世纪”、“第十二世纪”,“第十三世纪”、“第十五世纪”、“第十七世纪”等词语都只能是重码。而且,由于单字是4码,双字词是4码,三字词是4码,4字词和多字词也是4码,结果必然出现单字、双字词组、三字词组、四字词乃至多字词语同为一个编码的多重混乱状态,这些都是“形码”难以克服的弊病。从根本上说,形码是不能真正解决汉语中存在和使用的大量词组、词语和短句的编码的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于曾养志,未经曾养志许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/00106604.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:空调氧气帐
- 下一篇:一种有机碘制剂的制备及其应用方法