[发明专利]一种将汉字语句转换为盲文的方法有效
申请号: | 201710302938.2 | 申请日: | 2017-05-03 |
公开(公告)号: | CN107145478B | 公开(公告)日: | 2020-04-07 |
发明(设计)人: | 富明慧 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F40/129 | 分类号: | G06F40/129;G06F40/151 |
代理公司: | 广州容大专利代理事务所(普通合伙) 44326 | 代理人: | 刘新年 |
地址: | 510275 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 汉字 语句 转换 盲文 方法 | ||
本发明提供了一种将汉字语句转换为盲文的方法,包括以下步骤:S1、将汉字语句中的每个汉字转换为计算机可识别的4个字节的汉字全息码;S2、根据汉字全息码中第3字节和第4字节记录的信息,利用计算机将每个汉字的汉字全息码转换为盲文。本发明采用汉字全息码作为中间转换格式,在确定汉字字形的同时,也唯一确定了其读音,还明确了是否与后面汉字分词,包含了汉字明盲转换时所需的全部信息。利用本发明中的汉字全息码作为中间转换方式,能从根本上克服目前汉字盲文阅读中普遍存在的“费解”、“误解”等问题。
技术领域
本发明涉及汉字编码及文字处理领域,具体涉及一种将汉字语句转换为盲文的方法。
背景技术
汉字是世界上独一无二的文字,每个字都具有“音”、“形”、“意”三个要素,“音”行于“意”,“意”蕴于“形”,三者密不可分,缺一不可。但目前汉字的盲文,实际是一种拼音方案,由于汉语大量存在同音多字、一字多音的现象,因此汉字转化成盲文后,会普遍存在仅凭读音无法唯一确定词意、从而造成盲人阅读时费解、甚至误解的情况,这也是我国推广和普及盲文所面临的最大难题。
随着信息技术的发展,尤其是电脑和点字显示器(以下简称点显器)的推广和普及,为彻底解决上述问题创造了有利条件。
发明内容
有鉴于此,有必要针对现有技术中存在的问题,提供一种将汉字语句转换为盲文的方法,提高汉字语句向盲文转换的含义表达准确性。
为实现上述目的,本发明采用以下技术方案:
一种将汉字语句转换为盲文的方法,包括以下步骤:
S1、将汉字语句中的每个汉字转换为计算机可识别的4个字节的汉字全息码;
其中,将单个汉字转换为计算机可识别的4个字节的汉字全息码的方法为:
将该汉字的内码作为所述汉字全息码的前2字节;
将汉字全息码第3字节的其中一位定义为分词标识码,以分词标识码的不同数值标识该汉字是否与下一个汉字组成分词;
将汉字全息码的第4字节定义为读音标识码,统计该汉字的所有读音并进行编号,以读音标识码的数值大小标识该汉字在上下文中正确读音的编号;
S2、根据汉字全息码中第3字节和第4字节记录的信息,利用计算机将每个汉字的汉字全息码转换为盲文。
进一步地,所述S1中,将单个汉字转换为计算机可识别的4个字节的汉字全息码的方法还包括:
将汉字全息码第3字节的其中一位定义为默认读音标识码,从该汉字的所有读音中选取一个作为默认读音,以默认读音标识码的不同数值标识该汉字在上下文中采用的读音是否为默认读音。
进一步地,从该汉字的所有读音中选取使用频率最高的读音作为默认读音。
进一步地,在所述汉字全息码中:
第3字节中的最末位为默认读音标识码,该位取0时该汉字采用默认读音,取1时该汉字的读音由第4字节指定;
第3字节中的次末位为分词标识码,该位取0时表示该汉字不与下一个汉字组成分词,取1表示该汉字与下一个汉字组成分词。
进一步地,所述第3字节中的信息仅用到最末位和次末位。
进一步地,在将单个汉字转换为计算机可识别的4个字节的汉字全息码的方法中:
当该汉字的读音唯一时,汉字全息码的第4字节省略。
进一步地,在将单个汉字转换为计算机可识别的4个字节的汉字全息码的方法中:
当该汉字在上下文中采用的读音为默认读音时,汉字全息码的第4字节省略。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710302938.2/2.html,转载请声明来源钻瓜专利网。