[发明专利]“一字加四笔”中文词语手写输入方法无效
申请号: | 00107104.1 | 申请日: | 2000-04-17 |
公开(公告)号: | CN1318784A | 公开(公告)日: | 2001-10-24 |
发明(设计)人: | 张吉善 | 申请(专利权)人: | 张吉善 |
主分类号: | G06F3/02 | 分类号: | G06F3/02 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 310013 浙江省杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一字加四笔 中文 词语 手写输入 方法 | ||
在众多的汉字计算机输入方案中,手写输入占有特殊重要的地位。它比其它任何汉字输入方式都更直观、省脑子,常人不用任何培训就能使用。随着无线通讯和掌上型信息电器(如掌上型电脑记事本兼网络浏览器,掌上型电子字典,带电邮和上网功能的无线电话机及游戏机等等,在本申请文件中简称掌上机)的兴起,手写输入有可能取代键盘输入而成为最通用的汉字输入手段。
但是当前的汉字手写输入有个很大的缺陷就是速度不够快,为达到90%左右的一次输入准确率,使用者必须一笔一划按照汉字标准的笔顺很仔细地书写所有笔画。许多汉字有十几个笔画,输入速度自然很低,何况笔画多了笔顺写错的可能性更大一些,当计算机不能正确辨认的时候还得费时间进行修改。还有一点是当前掌上机的手写汉字输入都只认单字,不认词语,这也是手写输入速度低的原因之一。
本发明基于现代汉语的词语和单字在使用频度、总量、构成等方面所固有的统计规律,提出了“一字加四笔”中文词语手写输入方法。这套方案的核心思想是在建有一个快速检索词库和一个四笔代码数据库的基础上,使用者只需手写一个完整汉字,外加写出另一个汉字的前四个笔画,即可实现汉字词语和单字的高辨识成功率手写输入,大幅度提高汉字手写输入的速度。
本发明的中文词语手写输入方案,不仅适用于掌上型信息机,也适用于手写板与显示屏幕相分离的台式计算机。其中的快速检索词库也可以为拼音、五笔等其它输入方法所借鉴利用。
以下列举的是本发明所使用的关于汉语词语与单字的有关统计规律,以及其对中文输入的直接影响。
■词语使用频度:词语(本专利申请中对“词语”与“多字条目”含义的细微差别不加区分)在现代汉语中的使用频度很高,通常来说一篇文章中词语占的篇幅为单字所占篇幅的二倍以上。所以说词语输入的快速与否在很大程度上影响一种汉字输入方案的整体速度。
■词语总量:汉语词语常用的大约有五万个(其中多半是二字词语,多于四字的词语很少),而常用的汉语单字大约只有五、六千个(例如吴景龙主编,商务印书馆1986年版《汉英词典》共收录单字6000余个,多字条目50000余条)。这么多词语,必得建立特殊的词库以提高搜索速度,至少对于CPU功能不太强的掌上机来说是如此。
■多个词语其对应的首字或第二字笔画相同(但不是对应的起首二字笔画都相同)的几率:一个汉字作为起首字平均可以组成约10个词语,绝大多数汉字作为起首字能构成的词语少于50个,但也有二十来个汉字可以作为起首字构成多于100个的词语,上述《汉英词典》中以“不”为起首字的多字条目更是有350多个。一个汉字作为词语中的第二字,平均可以组成的词语也同样是10个左右,至于有没有哪个字作为第二字构成了两三百个词语,无法在字典中方便地查找,也许只有依靠计算机程序才能作出准确统计。但可以肯定的是会有不少汉字可以作为第二字构成20个以上的词语,例如在下文的例子中,“古”字在二十多个词语中作为第二字出现。所以说在手写输入时单凭一个完整汉字就让计算机列出有关的候选词语是不可行的--从好多页的候选字词中挑选出意中的词语很费时间。
■多个词语其对应首字和对应第二字笔画分别相同的几率:既然一个汉字作为起首字或第二字平均只能构成约10个词语,而常用汉字有五六千个,则任意两个汉字放在一起作为起首二字可以构成的词语的平均数量就不到一个了。实际上仅少数几个字组合到一起作为首字和第二字能构成10个以上的词语,例如上述《汉英词典》收录了以“不可”为起首两字的词语共18个。
■以上两条统计规律表明:在手写输入汉语词语时,要让计算机检索出适量的候选词语,最有效的方案是由使用者写入一个笔画完整的单字,外加另一个字的几个笔画(究竟需要外加几个笔画,下文将详细分析)。这个笔画完整的单字可以是词语的首字,也可以是第二字。按照汉字手写的自然习惯,这外加的几个笔画显然以一个字的顺序起首笔画为佳。
■上面说了《汉英词典》中绝大多数字作为起首字可以组成的多字条目少于50个,今在一个完整汉字的基础上额外输入另一个字的几个笔画,目标在于将候选词语的数量平均缩小到三到五个以内。由于没有方便直接的统计数据可以利用,现以“西”字为起首字的词语为例(在上述《汉英词典》中一共收录46个“西”字开头的二、三、四字的词语,就其组成的词语数量来说较为典型),使用者意中的词语是“西藏”。以下分析在写入完整的“西”之后,分别外加写入“藏”字的起首二、三、四个笔画对于缩小候选词语数量的作用。在这四个笔画之内,计算机程序不计较笔画之间的左右和上下位置,因为这样才能简化程序,提高检索速度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于张吉善,未经张吉善许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/00107104.1/2.html,转载请声明来源钻瓜专利网。