[发明专利]一种精简电子书字库的方法及电子书处理装置无效

申请号：	201210348094.2	申请日：	2012-09-18
公开（公告）号：	CN102880690A	公开（公告）日：	2013-01-16
发明（设计）人：	闻申生	申请（专利权）人：	北京汉仪科印信息技术有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	王宝筠
地址：	100036 北京市海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种精简电子书字库方法处理装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及数字出版领域，尤其是涉及一种精简电子书字库的方法及电子书处理装置。

背景技术

当涉及到数字出版的可阅读性和电子出版的美观性时，汉字字形的美观和丰富是电子书最重要的特征。电子书的大小很大程度上由电子书格式描述文件如EPUB（electronic publication）、Mobi等，及字库文件的大小决定。电子书的阅读一般是通过网络下载到本地设备后阅读，也可以通过云端解析后传输到设备的阅读。当前的电子书可以使用系统字库，一般系统字库自带一到二种GB18030-2000的字库，如果不带自有字形字库的电子书，会自动索引系统字库，如此的电子书会导致电子书的千遍一律的感觉，美观性和独特性无法显现。因此，电子书一般会自带字库。

但是，汉字字库字库量非常大，已有标准收集的汉字字形从GB2312-80的6763个字形到GB18030-2000的27533个汉字字形不等。由于汉字数量大，一套字形的汉字字库（以TrueType字库文件为例）的文件大小在3M到20M不等（具体字库文件大小和字数以及字形相关）。这样，在一本电子书中，带有一套18030-2000的字库,字库占有空间超过90%以上，大量占有字库应用资源，特别是占用了网络的传输资源，而大量字形附带而成为占用资源的数据包袱，所以当前迫切需要一种可以精简电子书字库大小的方法。

发明内容

有鉴于此，本发明实施例的目的是提供一种精简电子书字库的方法及电子书处理装置，以解决目前电子书字库占用较大空间的问题。

一方面，本发明实施例公开了一种精简电子书字库的方法，所述方法包括：

通过解析电子书的格式描述文件获取所述格式描述文件中的汉字内码，并按指定编码顺序排序，形成所述格式描述文件的码位顺序表；

根据所述码位顺序表和所述电子书的原字库文件，通过只索引所述格式描述文件中出现的汉字内码的方式生成新字库文件；

用所述新字库文件替换所述原字库文件，以完成电子书字库的精简。

优选的，所述格式描述文件具体为EPUB文件。

优选的，所述通过解析电子书的格式描述文件获取所述格式描述文件中的汉字内码，并按指定编码顺序排序，形成所述格式描述文件的码位顺序表，具体包括：

通过解析所述电子书的所述EPUB文件获取所述EPUB文件中链表登记部分；

遍历所述链表登记部分，将各个页面文件的段落内容作UTF-8转向UNICODE转换和排序，形成所述码位顺序表。

优选的，所述新字库文件和所述原字库文件具体为TTF字库文件或OTF字库文件。

优选的，所述根据所述码位顺序表和所述电子书的原字库文件，通过只索引所述格式描述文件中出现的汉字内码的方式生成新字库文件，具体包括：