[发明专利]一种将Word文件转换为EPUB文件的方法及系统有效
申请号: | 201810071710.1 | 申请日: | 2018-01-25 |
公开(公告)号: | CN110083805B | 公开(公告)日: | 2020-11-27 |
发明(设计)人: | 高良才;陈嘉云;汤帜 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F40/151 | 分类号: | G06F40/151;G06F40/14 |
代理公司: | 北京万象新悦知识产权代理有限公司 11360 | 代理人: | 黄凤茹 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 word 文件 转换 epub 方法 系统 | ||
本发明公布了一种将Word格式文件转换为EPUB格式文件的方法与系统。针对.docx格式的Word文件,通过对Word源文件的目录进行识别与处理,能够识别源Word文档目录结构,自动生成EPUB电子书,其步骤包括:Word文件解析、XML文件解析、Word文件拆分、HTML文件生成以及EPUB文件生成。本发明提供的能够识别源Word文件目录的EPUB电子书自动生成办法,解决了现有技术转换效果不佳、手动添加标题目录的转换过程操作繁琐、效率低下等问题,保障了文档内容的完整性,提升了文档的转换效果并提高了工作效率。
技术领域
本发明涉及文档处理技术,尤其涉及一种将Word格式文件转换为EPUB(Electronic Publication,电子出版)格式文件的方法及系统。
背景技术
在数字出版和“互联网+”的时代,随着移动通信和网络出版的快速发展,电子书变得越来越普及与流行。数字时代的到来改变了人们的阅读习惯,通过电子阅读器、智能手机等设备进行碎片化阅读与移动阅读已成为大众接受与喜爱的阅读方式,而由于设备、平台、出版媒介等方面的差异,市面上涌现出各种各样的电子书格式,如TXT、PDF、EPUB、Mobi、Azw3、CEB/CEBX、CAJ、PDG等等。在各种流行的电子书格式中,EPUB作为国际数位出版论坛(IDPF)的正式标准,因其支持多种复杂排版、可自适应设备屏幕等优点,与PDF、Mobi并列为电子书三大主流格式;而Word与PDF作为最常见的办公室文档格式,成为出版行业中最常用的两种文档稿件格式。在电子书的出版、发行过程中,常常需要实现不同电子书格式之间的转换,而在许多软件开发的过程中也常常遇到不同格式文档之间进行相互转换的需求。
Microsoft Office Word是目前最常见的电子文档工具,而Word文件包括.doc与.docx格式,前者属于MS-Word二进制文件,后者则遵循微软开发的以XML为基础并以ZIP格式压缩的电子文件规范OOXML(Office Open XML)。通用的Word文件解析办法是,从解压后的Word文件中提取相应信息,将其转化为对应的HTML文件来进行下一步的处理。
EPUB格式遵循ZIP压缩技术,解压后的EPUB文件主要包含三部分内容:用以说明EPUB的文件格式的mimetype文件;存放OPF、NCX、CSS、HTML等包含EPUB电子书核心内容文件的OEBPS文件夹;以及包含若干EPUB电子书属性内容的META-INF文件夹。通用的EPUB电子书生成主要包含四个步骤:添加mimetype文件;打包所有资源文件;创建opf、ncx等核心内容文件;最后再创建相应的属性文件,并压缩合成EPUB格式。
目前有许多在用的文件格式转换工具,其形式包括在线服务、桌面应用程序与API接口。对于不同格式文档的转换效果,文本、图表、标签、目录结构等内容的完整性,标题、字体、字号等属性的保留程度,以及特殊文档的处理等因素都是常见的考虑指标。现有常见的文件格式转换功能涉及Word、PDF、EPUB、Excel等格式,而对于将Word文件转换为EPUB格式文件的技术方案却相对较少。特别地,对于包含目录结构的Word文件,无论是带有导航标签的文件还是带有不含跳转链接的目录页的文件,现有技术的转换效果均不佳,容易发生目录结构丢失、文本混乱等状况。
发明内容
为了克服上述现有技术的不足,本发明提供一种将Word格式文件转换为EPUB格式文件的方法与系统,针对.docx格式的Word文件,通过对Word源文件的目录进行识别与处理,能够提取源Word文件的目录结构,自动生成EPUB电子书。
本发明的技术方案是:
一种将Word文件转换为EPUB文件的方法,包括如下步骤:
1)Word文件解析:获取待转换的Word文件(.docx格式文件)并进行解压,生成相应的资源文件及文件夹,其中包含若干XML文档、图片等文件;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810071710.1/2.html,转载请声明来源钻瓜专利网。