[发明专利]文字信息处理方法和装置无效
申请号: | 96115997.9 | 申请日: | 1996-10-04 |
公开(公告)号: | CN1068127C | 公开(公告)日: | 2001-07-04 |
发明(设计)人: | 吴胜远 | 申请(专利权)人: | 吴胜远 |
主分类号: | G06F3/023 | 分类号: | G06F3/023 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 250061 山东省济*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文字 信息处理 方法 装置 | ||
本发明涉及文字信息处理的方法和装置。特别涉及以文字成分为单位进行处理的方法和装置,该发明是对含有多级内码的文字信息能直接进行处理的文字信息处理的方法和装置。
现有文字处理的方法和装置中,文字字符用机内码表示,本说明书将这种机内码称为单级内码,又称为一级内码,例如ASCII码、汉字机内码等。在现有文字信息处理系统中,文字信息是以单级内码的形式进行处理的。文字信息存储量大,传输量大,处理速度慢。
现有的文本压缩技术可以增加文字信息在辅助存储器上的存储量,提高文字信息的传输效率,但是不能提高文字信息的处理速度,也不能增加文字信息在主存储器内的存储量。在语言工程中,如自然语言理解、文-语转换和机器翻译中,文字信息的处理需要在词、词组或短语的层次上进行,因而现有文字处理系统的效率较低,并且存在一些难以克服的困难,例如分词的速度和正确性问题,文-语转换中语音的正确性等问题。当前文字信息处理中许多困难的根源就在于单级内码,例如在中文的输入过程中,有的采用词输入的方法,也就是说,在输入过程中,已经解决了许多分词问题,但是,现有的输入方法只解决了输入码到单级内码的转换,单级内码难以保留分词信息,因而将输入过程中的分词信息扔掉了;又如,汉字存在重音问题,对应一个汉字只有一个字形,但是有多个音,但是只有一个机内码,因而无法区分重音字。
在对国际检索报告中列举的四篇文献研究之后,发现这四篇文献都是关于文字输入问题的,以上相关文献中没有一个提出多级内码的概念。根据CN-A-1053960,输入汉字字形组合符号(即字或词的输入码),在词典和字典中检索输入码,将词组变换为相应的字,输出变换后的字。CN-A-86107235公开了一种以词组输入编码为主,单字编码输入为辅的二元输入法。这些文献只解决汉字或表意文字输入码到相应单级内码的转换问题。由于没有提出多级内码的概念,在机器内部仍然以单级内码存储和处理,自然不能解决增加文字信息存储量的问题,也不能提高文字信息的传输效率,也不能提高文字信息的处速度(虽然有的可提高输入速度),也没有在分词和文-语转换方面带来新的长处。
本发明不仅可用于表意文字,也适用于字母式结构的文字信息的处理,也就是说,本发明适用于各种文字信息的处理。本发明也包含汉字信息的输入方法,但主要是输入码转换为含有多级内码的方法和装置,对于输入码转换为单级内码的方法,则是利用了多级内码技术中的有关方法。
发明目的
本发明的目的之一在于提供一种含有多级内码的文字信息处理方法,并且提供该方法在第一类文字处理系统中的应用。
本发明的目的之二在于提供一种含有多级内码的文字信息的处理装置,并且提供与第二类文字信息处理装置相关的第一类文字信息处理的装置。
为了实现发明的目的,本发明人提出了多级内码的概念。
首先说明多级内码的含义。
内码是文字信息在机器内部的表示,简称机内码或内码。
单级内码是对应文字字符或基本单位的内码。例如ASCII码和汉字机内码等。单级内码也可称为一级内码。
文字成分是对应文字中的字、词、词组或短语等文字部分。
多级内码是对应于文字成分的内码,也就是说,多级内码是字、词、词组或短语在机器内部的表示。多级内码不仅用于文字信息的存储、传输,而且可用于文字信息的运算和处理。单级内码可以看作为一级的多级内码,因而能处理多级内码的系统自然能处理仅含单级内码的文字信息。
由于多级内码可与词相对应,因而含有多级内码的文字信息不需分词,这样解决了分词的正确性和分词速度问题,同时,多级内码也解决了字和词的重音问题,对于含有多个(含2个)重音的字,其中一个用单级内码表示,其余用多级内码表示,例如“重”可发“zhong”或“chong”,汉语中还存在一些重音词,例如“一行”可读成“yi xing”或“yi hang”,出差可读为“chu chai”或“chucha”等,在英语中也存在重音问题,例如record作动词和作名词时,发音就不同,在英语中不同发音的词可以用不同的多级内码表示,所以,采用多级内码可以解决文字信息中的重音问题。
本发明的第一目的的第一方面,是关于一种文字信息处理方法,其中文字字符用机内码表示,该机内码也称为单级内码,并且文字成分一即字、词、词组和短语是用文字成分中所含至少一个字符的单级内码的集合表示的,文字信息的处理是通过对单级内码的处理实现的,所述文字信息处理方法的特征在于
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吴胜远,未经吴胜远许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/96115997.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:耐磨烧结合金及其生产方法和用其制成的滚轮
- 下一篇:生产蛋白酶的方法