[发明专利]一种将Word文件转换为EPUB文件的方法及系统有效
申请号: | 201810071710.1 | 申请日: | 2018-01-25 |
公开(公告)号: | CN110083805B | 公开(公告)日: | 2020-11-27 |
发明(设计)人: | 高良才;陈嘉云;汤帜 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F40/151 | 分类号: | G06F40/151;G06F40/14 |
代理公司: | 北京万象新悦知识产权代理有限公司 11360 | 代理人: | 黄凤茹 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公布了一种将Word格式文件转换为EPUB格式文件的方法与系统。针对.docx格式的Word文件,通过对Word源文件的目录进行识别与处理,能够识别源Word文档目录结构,自动生成EPUB电子书,其步骤包括:Word文件解析、XML文件解析、Word文件拆分、HTML文件生成以及EPUB文件生成。本发明提供的能够识别源Word文件目录的EPUB电子书自动生成办法,解决了现有技术转换效果不佳、手动添加标题目录的转换过程操作繁琐、效率低下等问题,保障了文档内容的完整性,提升了文档的转换效果并提高了工作效率。 | ||
搜索关键词: | 一种 word 文件 转换 epub 方法 系统 | ||
【主权项】:
1.一种将Word文件转换为EPUB文件的方法,包括如下步骤:1)解析待转换的Word源文件:对待转换的Word源文件进行解析,生成相应的资源文件及文件夹,包括多个XML文件和图片文件;所述待转换的源Word文件为.docx格式文件,遵循基于ZIP+XML格式的OOXML电子文件规范;解析得到的XML文档遵循OOXML电子文件规范;2)解析XML文件:对得到的资源文件中的多个XML文件进行XML解析,提取得到Word源文件的文本、段落、字体字号、标题信息;3)拆分Word源文件:利用步骤2)的解析XML的结果,提取得到Word源文档的目录结构,根据相应的章节结构将Word源文件拆分为多个Word子文件;4)生成HTML文件:将各个子文件转换为HTML文件;5)生成EPUB文件:根据步骤4)生成的HTML文件、相关资源索引、目录文件,打包生成EPUB格式文件。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810071710.1/,转载请声明来源钻瓜专利网。