[发明专利]一种精简电子书字库的方法及电子书处理装置无效
申请号: | 201210348094.2 | 申请日: | 2012-09-18 |
公开(公告)号: | CN102880690A | 公开(公告)日: | 2013-01-16 |
发明(设计)人: | 闻申生 | 申请(专利权)人: | 北京汉仪科印信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100036 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 精简 电子书 字库 方法 处理 装置 | ||
技术领域
本发明涉及数字出版领域,尤其是涉及一种精简电子书字库的方法及电子书处理装置。
背景技术
当涉及到数字出版的可阅读性和电子出版的美观性时,汉字字形的美观和丰富是电子书最重要的特征。电子书的大小很大程度上由电子书格式描述文件如EPUB(electronic publication)、Mobi等,及字库文件的大小决定。电子书的阅读一般是通过网络下载到本地设备后阅读,也可以通过云端解析后传输到设备的阅读。当前的电子书可以使用系统字库,一般系统字库自带一到二种GB18030-2000的字库,如果不带自有字形字库的电子书,会自动索引系统字库,如此的电子书会导致电子书的千遍一律的感觉,美观性和独特性无法显现。因此,电子书一般会自带字库。
但是,汉字字库字库量非常大,已有标准收集的汉字字形从GB2312-80的6763个字形到GB18030-2000的27533个汉字字形不等。由于汉字数量大,一套字形的汉字字库(以TrueType字库文件为例)的文件大小在3M到20M不等(具体字库文件大小和字数以及字形相关)。这样,在一本电子书中,带有一套18030-2000的字库,字库占有空间超过90%以上,大量占有字库应用资源,特别是占用了网络的传输资源,而大量字形附带而成为占用资源的数据包袱,所以当前迫切需要一种可以精简电子书字库大小的方法。
发明内容
有鉴于此,本发明实施例的目的是提供一种精简电子书字库的方法及电子书处理装置,以解决目前电子书字库占用较大空间的问题。
一方面,本发明实施例公开了一种精简电子书字库的方法,所述方法包括:
通过解析电子书的格式描述文件获取所述格式描述文件中的汉字内码,并按指定编码顺序排序,形成所述格式描述文件的码位顺序表;
根据所述码位顺序表和所述电子书的原字库文件,通过只索引所述格式描述文件中出现的汉字内码的方式生成新字库文件;
用所述新字库文件替换所述原字库文件,以完成电子书字库的精简。
优选的,所述格式描述文件具体为EPUB文件。
优选的,所述通过解析电子书的格式描述文件获取所述格式描述文件中的汉字内码,并按指定编码顺序排序,形成所述格式描述文件的码位顺序表,具体包括:
通过解析所述电子书的所述EPUB文件获取所述EPUB文件中链表登记部分;
遍历所述链表登记部分,将各个页面文件的段落内容作UTF-8转向UNICODE转换和排序,形成所述码位顺序表。
优选的,所述新字库文件和所述原字库文件具体为TTF字库文件或OTF字库文件。
优选的,所述根据所述码位顺序表和所述电子书的原字库文件,通过只索引所述格式描述文件中出现的汉字内码的方式生成新字库文件,具体包括:
获取原字库文件中的所有数据表项,所述所有数据表项包括编码映射表和其他表项;
将所述码位顺序表和所述编码映射表进行比对,通过只索引所述格式描述文件中出现的汉字内码的方式,生成新的编码映射表;
根据所述新的编码映射表生成新的其他表项;
根据所述新的编码映射表和所述新的其他表项,合成新字库文件。
优选的,所述用所述新字库文件替换所述原字库文件,以完成电子书字库的精简,具体包括:
修改所述格式描述文件中的字库选择以定位到所述新字库文件;
将修改后的所述格式描述文件和所述新字库文件替换原来的所述格式描述文件和所述原字库文件,以完成电子书字库的精简。
另一方面,本发明实施例还公开一种电子书处理装置,用于精简电子书的字库文件,所述装置包括:
码位顺序表生成单元,用于通过解析所述电子书的格式描述文件获取所述格式描述文件中的汉字内码,并按指定编码顺序排序,形成所述格式描述文件的码位顺序表;
新字库文件生成单元,用于根据所述码位顺序表和所述电子书的原字库文件,通过只索引所述格式描述文件中出现的汉字内码的方式生成新字库文件;
字库替换单元,用于用所述新字库文件替换所述原字库文件,以完成电子书字库的精简。
优选的,所述格式描述文件具体为EPUB文件,所述码位顺序表生成单元具体包括:
链表登记部分获取子单元,用于通过解析所述电子书的所述EPUB文件获取所述EPUB文件中链表登记部分;
码位顺序表获取子单元,用于遍历所述链表登记部分,将各个页面文件的段落内容作UTF-8转向UNICODE转换和排序,形成所述码位顺序表。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京汉仪科印信息技术有限公司,未经北京汉仪科印信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210348094.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:中文网页数据编码、解码方法及系统
- 下一篇:提取相似子时间序列的方法和装置