[发明专利]文本数据处理方法和装置无效
申请号: | 201010586550.8 | 申请日: | 2010-12-09 |
公开(公告)号: | CN102567294A | 公开(公告)日: | 2012-07-11 |
发明(设计)人: | 仇睿恒;胡薇 | 申请(专利权)人: | 北京大学;北大方正集团有限公司;北京北大方正技术研究院有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/30 |
代理公司: | 北京天昊联合知识产权代理有限公司 11112 | 代理人: | 陈源;罗建民 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 数据处理 方法 装置 | ||
技术领域
本发明涉及文本数据处理技术领域,尤其涉及一种文本数据处理方法和装置。
背景技术
目前,存在许多文本数据压缩方法。但是,这些压缩方法通常都是仅针对某种特殊语种采用特定的压缩方法进行压缩,而对于包含多种语种的文本数据的压缩,目前尚缺乏有效的压缩方法。
在申请号为02819502.7的中国专利“字数据库压缩”中,提出了一种对不同语种的字数据库进行压缩的方法。在该方法中,按字母顺序对不同语种的字进行排序,并按照树状结构来排列字数据库中的字,在树状结构的节点中存储由两个或多个按字母顺序接连的字所共用的公共前缀,并将各个字的相应末尾都保存为相应节点的叶节点。但是,这种方法仅针对于利用字母排列的西方语言,而不适用于其它语言,比如中文、日文和韩文等亚洲语言。
在申请号为200710076577.0的中国专利“在手持学习终端上实现的联合搜索的方法”中,提出了一种采用通用的方法对所有语种文本进行压缩的方法。在该方法中,采用通用的Huffman压缩方法或者发明人提出的前缀长度加后缀的压缩方法对所有文本字符进行压缩,采用发明人提出的数值加数值表示的压缩方法对数字进行压缩。在发明人提出的前缀长度加后缀的压缩方法中,将当前词条与关键词条库中的上一词条共有的字符作为前缀,并利用前缀长度表示该前缀的长度,后缀则为该词条中的其余字符。虽然该专利提出了一种可适用于所有语种文本的压缩方法,但是由于不同语种之间的区别巨大,这种通用的压缩方法仍然很难保证取得较好的压缩率。
发明内容
为了解决以上问题,本发明提供一种文本数据处理方法和装置,以实现对包含多种语种的文本数据的高效率压缩。
为了实现以上目的,本发明提供的文本数据处理方法包括:读取待压缩文本数据的数据流;对于所述数据流中已指定压缩方法的语种数据流,以指定压缩方法或指定压缩工具进行压缩;对于所述数据流中未指定压缩方法的语种数据流,以默认压缩方法或默认压缩工具进行压缩;将经过压缩的各数据流按照其在所述待压缩文本数据的数据流中的先后顺序进行合并。
优选地,所述方法还包括以下步骤:根据指定压缩方法、该压缩方法所处理的语种数据流、和相应压缩工具在本地或网络上的位置,生成配置文件。
优选地,还包括以下步骤:根据已指定压缩方法的语种数据流、压缩该语种数据流的指定压缩方法、和相应压缩工具在本地或网络上的位置,生成配置文件。
优选地,对于任一种语种数据流,如果在配置文件中的指定压缩工具的位置无法找到指定压缩工具或者指定压缩方法不符合规范,则利用默认压缩方法或默认压缩工具对该语种数据流进行压缩。
优选地,根据不同语种的特点将所述数据流中的字符分成拉丁字符、扩展字符、数字字符和标点字符,其中,拉丁字符属于能够通过空格和标点将词分开的语种字符,扩展字符属于不能通过空格和标点将词分开的语种字符。
优选地,对于拉丁字符、扩展字符、数字字符和标点字符中的至少两种,采用相同的默认压缩方法或者分别采用不同的默认压缩方法。
优选地,对于拉丁字符和扩展字符,默认压缩方法包括以下步骤:对于拉丁字符,根据空格和标点将拉丁字符分成多个词,并统计各个词的出现频率,形成初步的字典;对于扩展字符,直接将每个字符提取出来,并统计每个字符的出现频率,形成所述初步的字典;对所述初步的字典中的词或字符按照出现频率进行排序,删除出现频率小于预定值的词或字符;对于所述初步的字典中剩余的词或字符分配编码,并按照字典编码法利用这些编码对语种为拉丁字符或扩展字符的数据流进行压缩。
优选地,对于属于拉丁字符的英语字符,指定PPM方法;和/或对于属于扩展字符的中文字符,指定LZSSCN压缩方法;和/或对于属于扩展字符的日语,指定HORI压缩方法。
相应地,本发明提供一种文本数据处理装置,包括:输入单元,其用于打开文本数据文件,建立该文件的文本数据的数据流;压缩单元,其用于读取通过输入单元输入的数据流,对于所述数据流中已指定压缩方法的语种数据流,以指定压缩方法或指定压缩工具进行压缩,对于所述数据流中未指定压缩方法的语种数据流,以默认压缩方法或默认压缩工具进行压缩;合并单元,其用于将经过压缩单元压缩的各数据流按照其在通过输入单元输入的数据流中的先后顺序进行合并;和配置单元,其用于根据为数据流语种指定的压缩方法和相应压缩工具在本地或网络上的位置生成配置文件,使得压缩单元根据配置文件以指定压缩方法或指定压缩工具对已指定压缩方法的语种的数据流进行压缩。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学;北大方正集团有限公司;北京北大方正技术研究院有限公司,未经北京大学;北大方正集团有限公司;北京北大方正技术研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010586550.8/2.html,转载请声明来源钻瓜专利网。