[其他]序列字根法汉字信息处理技术无效
申请号: | 85102473 | 申请日: | 1985-04-01 |
公开(公告)号: | CN85102473B | 公开(公告)日: | 1987-11-25 |
发明(设计)人: | 于明江;李中伟;于静 | 申请(专利权)人: | 山东电子研究所 |
主分类号: | G06F3/023 | 分类号: | G06F3/023 |
代理公司: | 山东省专利服务处 | 代理人: | 周长义 |
地址: | 山东省济*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 序列 字根 汉字 信息处理 技术 | ||
本发明是计算机汉字信息处理领域不设汉字库而能处理汉字的一项新技术。
计算机汉字信息处理的研究已获得较大进展,并已在许多领域得到应用。图1列出了三种有代表性的汉字处理方法。图1(a)是当前较为流行的汉字处理方法。该法的特点是机内有一个汉字库(3),存一定字数的点阵信息。输入时将汉字按某种编码用键盘(1)送入机器,由机器换码(2)后变成机中的内部码,供内部处理用。在输出时根据汉字的内部码到字库(3)里取出汉字点阵信息,直接送输出设备(4)输出。由于字库里存的是点阵,输出时较易处理。缺点是占内存大,软盘字库速度太慢;EPROM字库价格较贵。
为了减少占内存容量,不少单位研制了压缩字库。压缩字库有多种类型,但采用最多的是图1(b)所示的字根式压缩汉字库。字根库(8)中收存组成汉字的字根信息,压缩字库(7)中收存每个汉字有哪些字根以及这些字根的相对比例关系的信息。该法输入方法与整字存贮的方法相同,在输出时,由汉字的机内码取出字库中的字根组合信息,配合字根信息合成汉字(9)后输出。该法较图1(a)所示方法可大大节省内存,但4000字仍需几十K内存,另有字型质量差,合成汉字速度低的问题。
本发明的发明人之一于明江,1983年5月在武汉召开的中国中文信息研究会第二次全国学术会议上,发表了题为《无字库汉字信息处理》的论文,首次提出了“无字库汉字信息处理”的概念,并阐述了一种不设汉字库的构思。根据这一构思,汉字处理的过程如图1(c)所示。输入时将汉字分解成一串序列字根用键盘(11)输入机内,经(12)代换成序列字根代码串,在存贮、处理时同英文计算机处理字符串一样处理字根串,而在输出时,根据字根串的定位信息及字根信息从字根库(14)取出字根笔划端点坐标合成一个汉字(13)后,经输出设备(15)输出。经原理性实验,证明该法原理是可行的,但存在合字速度慢,字型质量差的问题。
发明目的:
把无字库汉字信息处理的设想推进到实用阶段。为计算机汉字信息处理开辟一条更加合理的可行之路
详细技术说明:
为把无字库汉字信息处理的设想推进到实用阶段,在序列字根代码系、汉字输入与机内代码形成、序列字根代码变换成汉字点阵模图的三个关键环节上,发明了一系列新的技术和方法。
一、序列字根代码系
1.序列字根代码系的构成
序列字根代码系是一种与GB1988-80七位编码字符集兼容的不等长代码系。它最适合在中英文混合处理的电子计算机或其他设备内部使用。它的主要元素包括:(1)汉字基本构件(字根符),(2)基本构件的排列(定位符),(3)汉字区分标志(标识符),也可含有(4)扩展汉字处理功能的其他信息(格式控制符)。
序列字根代码系主要元素的取值范围,除了标识符之外,均在GB1988-80字符集中相当于10个阿拉伯数字和26个大写字母的位组范围内,也就是图2中画有斜线的3/0~3/9和4/1~5/10这36个位组。而标识符是GB1988-80字符集中除前述36个位组之外的任意一个图形字符所在的位组。
字根符由两个字节组成。前面的为第一字节,后面的为第二字节,每个字节都用GB1988-80中3/0~3/9和4/1~5/10的位组表示。其码值需根据所选定根的多少,选择上述36个位组中全部或部分位组统一编码后确定。
定位符也由两字节组成。第一字节是选定的标识符,第二字节是3/0~3/9和4/1~5/10的36个位组中的一个。
格式控制符由前导的三个字节和若干参数组成。前导的三字节中,第一字节是标识符。第二字节是3/0~3/9和4/1~5/10这36个位组中除定位符占用的以外的一个。第三字节是上述36个位组中的一个。
2.编码的用法
(1)标识符的任意指定:标识符是定位符和格式控制符中不可缺少的一部分。在每种语言环境下,都可由用户(而不光是系统改造者和系统设计者)通过键盘或其他设备在标识符的取值范围内任选一个。标识符指定后,由机器在需要时自动插入,用户不再干预。
(2)代码系的进入:选定标识符后,定位符、格式控制符均以标识符打头。而汉字的第一个符号必然是定位符,因此,只要一见标识符,即宣告进入本代码系。
(3)代码系的退出:每个定位符都隐含着其后字根的个数,格式控制符隐含着参数个数,一旦条件满足,便自动退出。
(4)中英文混合的文字串中之英文
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东电子研究所,未经山东电子研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/85102473/2.html,转载请声明来源钻瓜专利网。