[其他]《中文声数编码》方案及其实现方法在审
申请号: | 85100087 | 申请日: | 1985-04-01 |
公开(公告)号: | CN85100087A | 公开(公告)日: | 1986-07-30 |
发明(设计)人: | 唐懋宽;杨春武 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F3/023 | 分类号: | G06F3/023 |
代理公司: | 清华大学专利事务所 | 代理人: | 王久春 |
地址: | 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中文 编码 方案 及其 实现 方法 | ||
《中文声数编码》方案属于《汉字编码》技术领域。
《中文声数编码》方案包括《汉字编码》、《现代汉语语词编码》两个编码和在国际通用的西文键盘上的《键位图》三个部分组成该方案。从1973年着手编写,于1981年完成了《汉字编码》和《键位图》,1983年全部完成了七万条语词的收集和编码,并打印了全部码本资料计21册70余万字。这个项目的完成主要用的工具书为:《汉语拼音方案》、《新华字典》、《新华词典》、《现代汉语词典》、《辞源》、《成语词典》、《哲学词典》、《标准电码本》、《英文打字机键盘》、《中华人民共和国国家标准字符集基本集》等。
随着计算机的发展和普及,汉字编码已普遍引起国内外有关学者的重视,到目前已有400多种方案,国内已上机的有30多种(《计算机世界》1984年6月29日),其中影响较大的有:河南王永民的《五笔字型》,北京师大李金凯的《笔形输入法》、水科院李惠勤的《拼形法》;其它还有台湾的《仓颉编码》、美国王安的《三角码》。
反映上述有关技术的文章可见《中文信息处理国际研讨会论文集》
中国中文信息研究会出版1983年10月23日
信息是人类社会的第三资源。信息的及时收集和传输决定信息的价值。中文信息的现代化处理是世界各种语言文字中最难处理的文种,这主要由于汉语的书面符号-“汉字”的数量繁多、字形又复杂,还有大量的同音字所决定的。计算机处理文字信息的全过程,一般包括文字信息的输入、存储、处理、传输及输出五个环节。但障碍中文信息处理的主要问题是中文信息的输入,而输入速度受限制和输入方法不能普及推广的关键,目前又集中在汉字的编码上。因此,汉字编码被称为中文信息处理的“瓶颈”问题。
研究的目的是要提出一个:好学、好用、不需记忆,输入速度快,不费脑力,输入活动又能和人脑对语言的思维活动一致,不分行业、年龄都能掌握的易于普及的方案。
《中文声数编码方案》,又称《汉语拼音编码方案》。它严格遵照《汉语拼音方案》的规则,利用计算机的功能,采用声母、韵母、调号、序号组码定字的方法,从而简捷又准确地解决了中文同音字、同音词的区分识别问题。使用汉语拼音编码输入汉字或普通话语词,利用计算机自动转变汉字输出,这是中文信息处理的一条宽广的捷径。
《中文声数编码》方案组码根据汉字的普通话读音,以音编码,并规定五个拉丁字母标声调(J、X、V、H和W分别为阴平、阳平、上声、去声和轻声的声调号),用阿拉伯数码标同音字。在同音同调的音节中,使用频度高的汉字排在前位,以方便查找选定。
该方案编码容量不限,可容所有汉字。现集合9771个汉字,包括《国标GB2312-80》和《标准电码》本中所含的汉字;现代汉语语词编码7万条。
这种编码,组码简单,直观可读,因而它易学、好用、精密、准确、无需记忆。可高速盲打,便于普及。尤其重要的是这一方案能使操作者对语言的思考和手指的键入自然的溶为一体,并且适于听打,省去了见字组码的极其紧张的脑力劳动;从而使计算机由汉字打字机成为中文编辑处理机。
一、方案的主要技术指标
1.容量:
汉字:9771个
词:7万条
2.编码基数:
通用键盘:26(+10)
3.码长:
字码:L1=1-5
词码:(字)L2=1.7
4.键入速度:
理论中值:90-150字/分
5.重码数:0
6.重码出现率:0
7.每字平均击键数:
字码:∠3
词码:∠2
二、汉字的编码
1.汉字全码
汉字的全码由其声、韵、调序组合而成。如“科”字,其编码为:KEJl
2.汉字的缩位码
在确保汉字编码准确性的前提下,对现代汉语中的高频字,有规律地压缩码位,缩短码长,减少码位;以提高键入速度。缩位码有三类:
(1)一码字:又称高缩位码字。它是选定26个最常用字。用一个字母作其高缩位码。如“的”字的编码为“D”,“是”字的编码为“S”……。这些高缩位的一码字,约占现代汉语总用字量的20%。
(2)二码字:在不计声调差异的408个音节中,选定该音节中最常用字,由该字的声母,韵母组成二码字。例如:在以“B”为声母的音节中“把”为“BA”“百”为“BAI”,“办”为“BAN”“帮”为“BANG”、“报”为“BAO”……。两码字与一码字累计可占现代汉语书面材料中总用字量的60%以上。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/85100087/2.html,转载请声明来源钻瓜专利网。
- 上一篇:由伺服马达操纵的闭锁装置
- 下一篇:环形激光磁力仪