[发明专利]一种位形码辅以拼音码的全字符结构串式输入方法有效
申请号: | 202110394195.2 | 申请日: | 2021-04-13 |
公开(公告)号: | CN113050807B | 公开(公告)日: | 2023-07-18 |
发明(设计)人: | 宦秉炼 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F3/023 | 分类号: | G06F3/023 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 位形码辅 拼音 字符 结构 输入 方法 | ||
1.一种位形码辅以拼音码的全字符结构串式输入方法,其特征在于:利用位形码和拼音对汉字和非汉字进行编码,并与键盘上的字母对应,对文句进行结构串划分,根据结构串取码规则实现结构串输入进而完成文句输入;
一)汉字编码构形
用于对汉字进行编码的构形即为编码构形,编码构形包括根构形和扩展构形;
(1)根构形
根构形是最基础的构形,共66个,包括:
(11)叠字构形
①二叠构形:由完全相同的两部分组成,以‘‥’表示,编码为U;
②三叠构形:由完全相同的三部分组成,以‘∴’表示,编码为T;
③四叠构形:由完全相同的三部分组成,以‘∷’表示,编码为Y;
(12)对称类构形
①左右对称或总体近似对称构形,编码为A;
②竖轴竖钩轴近似对称构形,编码为A;
(13)端连构形
若干笔画端部一一相连接或近似相连且不属于其它定义的链接状构形,编码为L;
(14)折类构形
①顺折构形:其书写方向总体上是顺时针方向旋转的构形,编码为B,其中竖钩“亅”也当作顺折处理;
②逆折构形:其书写方向总体上是逆时针方向旋转的构形,编码为T;
③复折构形:其书写既包括顺时针走向也包括逆时针走向的构形,编码为G;
(15)含交叉点构形
①含单交叉点构形
②含多交叉点构形
(16)特殊构形
为本输入法所特有的几个构形;
(2)扩展构形
扩展构形是在根构形的基础上通过添加笔画形成的构形,扩展构形和对应根构形的编码相同;
其中一些扩展构形字右下角带“.”,表示该字含特定附构形,基本上为该字内所含的笔画结构,或笔画的部位,附构形对应的编码为附码,是二级码;
上述汉字编码构形与键盘上字母键的对应关系如下表:
二)汉字的编码
(1)汉字的编码构形及编码级别
所有汉字都是由编码构形进行量测取码,汉字中出现的构形分为3个级别,分别为一级构形、二级构形和三级构形,应对的编码即为一级码、二级码和三级码;
(11)一级构形
汉字取码时,首先以最大的编码构形对汉字进行量测比对,匹配上的编码构形即为一级构形,为汉字的主要信息结构,其所对应的码,即为一级码,当一级构形不包含二级构形时,即为单一构形,否则称为复合构形;
(12)二级构形
某些一级构形包含次级构形,为汉字结构的次要信息结构,包括如下四种:
①包容型复合构形及其内构形
编码构形像容器一样包含其它构形,被包含的构形即为该编码构形的内构形,包容型复合构形与其内构形关系是两者无交叉点,被包构形从整体上讲,其上下左右至少三面被包锁,只允许一个方向有出口;
②叠字复合构形及其内构形
叠字构形为一级构形,其中相同的一个部分称为“等元”,对等元进行量测的构形即为二级构形,等元构形即为二级构形,对应的是二级码,是一级构形的内构形;
③左右对称复合构形及其内构形
左右对称构形左侧部分作为二级构形,是一级构形的内构形;
④特定复合构形及其内构形
指定28个汉字本身作为一级编码构形,指定它们含特定的附构形,在其左下角以“.”表示该字为特定复合构形,其对应编码如下表:
(13)三级构形
单一构形不含内构形,有时需进一步对它们本身所含更低层的构形进行取码,这些更低层的构形即为三级构形,为汉字的最底层信息结构;
(2)基础部件构形划分
对于语委列出的560个基础部件,它们有些属于单一编码构形,有些属于复合构形,其余为含多个一级构形的组合,对基础部件进行构形划分编码时,遵循以下原则:
a“构形数最小化”原则,即以少的构形来获取一个基础部件的信息;
b保留3笔及以上的正常书写汉字,特别规定,某些基础部件的上、下为“一”,保留构形“二”;
c将相交结构及端连结构组成构形;
d按上下型取构形;
e均衡原则,所取的各构形笔画数均衡,并且为多笔构形;
f上部或书写靠前的构形取较多笔画;
(3)汉字编码方法
(31)构形选取原则
采用对汉字进行构形量测匹配取码,对GB13000.1所列的20902个汉字的完整编码的最小码长为3,最大码长为4,而对扩展的6万多汉字的最大码长为5,编码构形选取应遵循的原则是:
①“先主要后次要”原则,即首先以一级构形进行编码,而先不管二级、三级码,只有当一级构形编码达不到码长的要求时,再考虑次级的二级构形补充编码,如果仍达不到码长要求时,才最后诉诸三级构形编码;
用公式表示如下:
汉字全码=Left(一级构形码+二级构形码+三级构形码,4)
上式表示对括号内逗号前面的组合字符串从左向右取4个字符,即如果前面字符串个数≤4,所取即为整个字符串,否则只是前面的4个字符,下面类同的表达式也为类推的表述,如果某字由3个“一级构形码”组成,且均不含二级码,则该字的全码长就为3,不再利用三级码;
②汉字取码需对构形进行判断划分,划分原则实际上就是划分的优先级别,由高到底按以下顺序进行:
a“构形数最少化”原则,以最少的构形完成对汉字的测量取码,特别规定,上下各有一个孤立的“一”,且之间只有一个一级构形,则两横组成“二”构形;
b保留2笔及以上基础部件常用字构形;
c将相交笔画及端连笔画组成构形;
d按上下型或左右取构形;
e均衡原则,所取的各构形笔画数均衡,并且尽可能都为多笔构形;
f上部或书写靠前的构形取较多笔画;
(32)编码方式
①含4个及以上一级构形的汉字编码
按照如下取码顺序表选取;
即第1码是在左上角取构形码,然后紧邻第1码的右侧取第2构形码,接着转至右下角取第3码构形码,第4码为紧邻第3构形的左侧;
上表中共有4行,每一行称为取码同层,其中“1、2、16、15”为上同层,1位顶部等于、略低于或略高于其右侧2位构形顶部,同样2与16位具相同关系,“3、4、5、6”为下同层,下同层的判断是:a.具有相同的笔画最底部;b.构形重心大致相同;c.3位底部略高于4位底部,当遇到同层中两个构形呈包夹嵌套在一起时,先取外夹构形,下同层全部取完后,才移转到其上的“7、8、9、10”同层取码;
②含不足4个一级构形的汉字编码
汉字编码不足4码时,需考虑补充取二级内码及三级码,总的来说,单一构形本身的三级构形编码,是从取码顺序表的1号位开始取;其他情况下,二级、三级取码均从取码顺序表的3号位开始;
A单一编码构形本身的编码
单一编码构形本身的取码公式为:
编码构形全码=Left(其本身键位代码+三级码+γγγ,4)
其中γ表示百搭码,代码字母为“R”,其作用是在没有其它信息编码可利用但又必须占位时,就以此来充当,后面称为补码;
单一编码构形不含二级内码,需从取码顺序表的1号位取三级构形码;
B单一复合构形的编码
a只含1个内码
复合编码构形全码=Left(其本身键位代码+二级构形码+二级构形的三级码,4);
b含2个以上内码
复合编码构形全码=Left(其本身键位代码+各二级内码,4);
C含2个一级构形字的编码
按取码顺序表取完2个一级构形码后,3、4码按以下方式取:
a 2个一级构形均无内码
左右型字:汉字全码=Left(第1构形码+第2构形码+第2构形的三级码+第1构形的三级码,4);
其它型字:汉字全码=Left(第1构形码+第2构形码+第1构形的三级码+第2构形的三级码,4);
b 2个一级构形中的一个含1个内码,另一个不含内码
汉字全码=Left(第1构形码+第2构形码+内码+另一构形的1个三级码,4);
c 2个一级构形中的一个含多个内码,另一个不含内码
汉字全码=Left(第1构形码+第2构形码+2个二级内码);
d 2个一级构形中均含内码
左右型汉字:2个一级码+第2构形的内码+第1构形的内码;
其它型汉字:2个一级码+第1构形的内码+第2构形的内码;
D含3个一级构形字的编码
按取码顺序表取完3个一级构形码后,若不含二级构形,则所取的3个一级码即为完整全码,不再取三级码,否则逆向返回补取1个二级构形码;
三)常用非汉字的编码
对主要非汉字符的编码规则大多以拼音读音为依据,其他根据有关方式编码:
(1)英语字母的编码
采用字母加固定拼音字母方式编码:
小写字母编码=本字母+xxy
大写字母编码=本字母+dxy
其中,xxy为“小写英”的拼音首字母,dxy“大写英”的拼音首字母;
另外,英语大小写字母还有一种全角汉化的形式,其编码为:
小写字母编码=本字母+xxh;
大写字母编码=本字母+dxh;
(2)数字及数字序号的编码
阿拉伯数字的编码采用键位移植法,即将1~0数字编码顺序安排到其下的Q~P键上取码;
数字编码=Q~P+szm,其中,szm为“数字码”的拼音首字母;
带圆括号的数字序号(1)~(10),带圆括号的数字编码=Q~P+yks,其中,yks为“圆括数”的拼音首字母;
另外,全角汉化数字编码为:
汉化数字编码=Q~P+hsz;
其中,hsz为“汉化数字”的拼音首字母;
数字序号均为一级码;
(3)标点符号的编码
标点符号主要以其名称的拼音为依据,个别,指最常用的逗号和句号,采用移植法,具体对应编码如下表:
(4)希腊字母的编码
综合其读音和形状与英语字母的对位关系进行编码,具体对应编码如下表:
(5)数学符号首码
常用数学符号大部分根据拼音读音,少数采用构形,具体对应编码如下表:
(6)拼音特定字母的编码
拼音特定字母编码=对应字母+声调码+py(拼音)
声调码指1~5声“阴平、阳平、上声、去声”对应的码为“Q W E R”,轻声及其他为T,ü以v代替;
(7)俄文字母编码
俄文字母编码主要根据读音前2字母安排;
俄语小字母编码=读音前2字母+ex[俄小];
俄语大字母编码=读音前2字母+ed[俄大];
(8)日文假名编码
日文假名主要根据读音编码;
平假名编码=读音前2字母+pi[平];
片假名编码=读音前2字母+pa[片];
小体以“x”作为第4码;
(9)韩语字母编码
韩语字母编码主要是以构形编码;
(10)其他符号的编码
其他符号较常用符号的编码,它们基本上都以汉语读音为编码的依据,具体见下表:
四)结构串输入
(1)纯汉字结构串输入的取码规则
对于汉字起头的结构串,第1字都是取2码;
(11)2字结构串
2字词编码=1(1,2)+2(1,2)或者2字词编码=1(1,2)+2(1,2,3)
其中,1(1,2)表示取第1字的1码和2码,2(1,2)表示取第2字的1码和2码,2(1,2,3)表示取第2字的前3码;
(12)3字结构串
3字词编码=1(1,2)+2(1,2)+3(1,2)
其中,3(1,2)表示取第3字的1码和2码,其他同前;
(13)4字结构串
4字词编码=1(1,2)+2(1)+3(1)+4(1,2)
其中,2(1)表示取第2字的1码,3(1)表示取第3字的1码,4(1,2)表示取第4字的1码和2码,其他同前;
(14)5字及以上结构串
多字词编码=1(1,2)+2(1)+3(1)+4(1)+5(1)
其中,4(1)表示取第4字的1码,5(1)表示取第5字的1码,其他同前;
(2)含非汉字结构串输入的取码规则
(21)常规含非汉字结构串
含非汉字结构串的输入规则与上面纯汉字结构串输入的取码规则一样,不同的是,遇到非汉字字符,无论在什么位置,只取其1码;
(22)某些特定字符串的编码
①拼音的编码
拼音结构串的编码为:
拼音的编码=Left(对应字母+声调码,6);
②两字拼音组合编码:
2字词拼音组合编码=Left[(1(ⅰ,ⅱ,ⅲ)+2(n),6]
其中,1(ⅰ,ⅱ,ⅲ)表示第1字的前3个拼音字母,2(n)表示第2字全部拼音字母,其中凡是以ch、sh、zh开始的,都以c、s、z代替。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110394195.2/1.html,转载请声明来源钻瓜专利网。